每天进步一点点

每天进步一点点

Python爬虫实战:爬取JS组成的页面

Python 爬虫如何获取 JS 生成的 URL 和网页内容? 获取JS动态内容—爬取今日头条  使用Selenium爬取QQ空间说说 python爬虫的最佳实践(五)--selenium+PhantomJS的简单使用    最粗暴的方法是使用selenium+phantomjs无界...

2017-04-20 11:14:19

阅读数 1467

评论数 0

[python基础] 多进程、多线程

提高爬虫效率—并发爬取智联招聘(多进程方式)   多进程的核心代码: from multiprocessing import Pool #multiprocessing是Python自带的一个多进程模块,在此我们使用其Pool方法。 if __name__ == '__main__...

2017-04-19 16:18:29

阅读数 21

评论数 0

Cookie总结

Cookie Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就...

2017-04-19 15:18:58

阅读数 34

评论数 0

【第三方包总结】

1、python有个第三方包叫chardet,它可以自动帮你识别出网页的编码 import chardet import urllib2   #可根据需要,选择不同的数据 TestData = urllib2.urlopen('http://www.baidu.com/').read...

2017-04-19 15:05:02

阅读数 37

评论数 0

Python爬虫实战:爬取代理IP

python验证代理IP是否可用 python爬虫-爬取代理IP并通过多线程快速验证(这个验证没跑通) scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP   Python验证IP是否可用 第一个用了BeautifulSoup,第二个用了PyQuery   有代...

2017-04-07 18:41:00

阅读数 89

评论数 0

Python验证IP是否可用

python爬虫-爬取代理IP并通过多线程快速验证 scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP   python爬虫成长之路(二):抓取代理IP并多线程验证 在使用爬虫爬取网络数据时,如果长时间对一个网站进行抓取时可能会遇到IP被封的情况,这种情况可以使用代理...

2017-04-07 18:16:14

阅读数 521

评论数 0

jQuery中map函数

两种方式: 1、直接jQuery.map //将原数组中每个元素加 4 转换为一个新数组。 $.map( [0,1,2], function(n){ return n + 4; }); //结果: [4, 5, 6]   //原数组中每个元素扩展为一个包含其本身和其值加 1 ...

2017-04-06 10:13:14

阅读数 69

评论数 0

【爬虫解析2】:pyquery总结

使用 pyQuery 解析HTML内容 https://segmentfault.com/a/1190000005182997 http://blog.csdn.net/cnmilan/article/details/8727308   安装 pyquery 即可: pip inst...

2017-04-05 15:30:03

阅读数 44

评论数 0

Scrapy爬虫:模拟浏览器和使用代理

采用settings.py的方式进行设置user agent和proxy列表 http://www.tuicool.com/articles/VRfQR3U http://jinbitou.net/2016/12/01/2229.html(本人用的这种)   网站的反爬虫策略: htt...

2017-04-05 14:27:09

阅读数 412

评论数 0

Python爬虫实战:Scrapy豆瓣电影爬取

来源:Scrapy安装、爬虫入门教程、爬虫实例(豆瓣电影爬虫) 该例子中未使用代理和模拟浏览器,所以会导致403Forbidden,以下已优化。 代码放在附件中。   采用settings.py的方式进行设置user agent和proxy列表 http://www.tuicool....

2017-04-05 14:19:38

阅读数 133

评论数 0

【爬虫解析1】:XPath总结

XPATH教程   1、加载 XML 文档 所有现代浏览器都支持使用 XMLHttpRequest 来加载 XML 文档的方法。 针对大多数现代浏览器的代码: var xmlhttp=new XMLHttpRequest() 针对古老的微软浏览器(IE 5 和 6)的代码: va...

2017-04-05 14:11:09

阅读数 307

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭