![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 88
lovenoodles
这个作者很懒,什么都没留下…
展开
-
python爬虫(一)
买了挺久的《用python写网络爬虫》,一直没有怎么细看。最近因为像测试下搜索,但是苦于自己没有海量的数据,所以准备用python写个爬虫,爬取一些网站(瓜子二手车,下厨房等)的数据今天将第一章的内容进行了测试:环境准备如下:python2.7(windows)vscode(需要装python插件)第一章主要实现了一个基本的爬虫。用于了解网站,用户代理,网站地图,爬取延时以及各种爬取策略。代码部分...原创 2018-05-01 22:59:32 · 280 阅读 · 0 评论 -
python intel64 windows 安装lxml
1. pip install lxml从下载日志看,下载地址是:https://pypi.tuna.tsinghua.edu.cn/packages/52/7f/aeaa0064809c319078b97bd30a0d7f7ee062df07608fa439029a948a431e/lxml-4.2.1-cp27-cp27m-win_amd64.whl但是 执行 from lxml import ...原创 2018-05-07 17:20:39 · 1506 阅读 · 0 评论 -
python爬虫(二)
针对《用python写网络爬虫的第二章》,该章主要讲述了如何从网页中抽取数据。1. 现讲述一下正则匹配数据的方法:import urllib2import redef scrape(html): area = re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)...原创 2018-05-13 17:34:07 · 351 阅读 · 0 评论