Python
hober.z
修炼
展开
-
爬虫的一点经验
1.写一个网页爬虫的时候遇到了一个div嵌套问题,即一个大的div里面有很多小的div,如: XXX XXXXX XXXX这样一个类型,如果爬取内层的div是很简单的,正则表达式十分好写:"/(.*?)/"但是如果要爬取外面的div该怎么办呢?当时我的做法是继续寻找,找出该段内容后面的具有识别该段内容能力的内容。如上式,在正则表达式中加入对id为com原创 2017-05-03 23:00:12 · 404 阅读 · 0 评论 -
python 没有++运算符,深入研究后发现,这个事情原来不像仅仅是没有这个运算符那么简单
刚开始学Python,当想要自增运算的时候很自然的 a++,结果发现编译器是不认识 ++ 的,于是去网上搜了一下,结果发现一篇老外的问答很精彩,涉及到了 Python 这个语言的设计原理问题无外乎就是 python 没有自增运算符,自增操作是如何实现的回答中有人介绍了关于自增操作,python 不使用 ++ 的哲学逻辑:编译解析上的简洁与语言本身的简洁,就不具体翻译了后面还转载 2017-06-26 21:37:16 · 16280 阅读 · 5 评论 -
python多版本切换
从网上看到的,记录一下 我的ubuntu上的python既有2.x版本,也有3.x版本。我想随时切换版本,可以进行如下操作:sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100sudo update-alternatives --install /usr/bin/python pyt原创 2018-01-21 17:30:23 · 509 阅读 · 0 评论 -
python配置虚拟环境(windows版)
将python安装路径和其下的script加入系统的环境变量中。Virtualenv安装(指定豆瓣源)pip install -i https://pypi.douban.com/simple/ virtualenv创建虚拟环境virtualenv -p E:\python\python.exe test激活虚拟环境cd test/Scrip...原创 2018-03-21 12:21:38 · 843 阅读 · 0 评论 -
使用scrapyd部署scrapy爬虫
scrapyd是一款可以用来管理scrapy爬虫的工具。它通过发送http请求来管理爬虫,控制爬虫项目的启停。 scrapyd在github上的地址为:https://github.com/scrapy/scrapyd安装scrapydpip install scrapyd在shell或cmd中输入scrapyd,然后就可以在网页上通过127.0.0.1:6800查看你的爬虫项目了。...原创 2018-05-03 22:18:01 · 452 阅读 · 1 评论 -
爬虫的一点策略
这是几次爬虫项目总结的一点经验,因为项目主要是使用Python Scrapy爬虫,所以大多与Scrapy相关。 1.采用xpath或css方式定位,尽量采用全局唯一的字段来定位,如id,class2.通过F12找到html元素信息是经过浏览器渲染的最终结果。要想获得原本的html文件的内容,右击页面空白部分查看源代码即可。这才是我们通过scrapy爬取网页获取的html的直接结果。3.一...原创 2018-07-28 11:18:40 · 360 阅读 · 0 评论