爬虫
懦夫的抉择
这个作者很懒,什么都没留下…
展开
-
爬虫小记(一)
scrapy runspider somefile.py -o xx.csv 1-在somefile.py文件中找到已经定义的爬虫,然后通过抓取引擎运行爬虫。 我们在文件中显然定义的是我们想要的内容,所以我们需要我们目标地址,地址中我们需要的对象,以及其他的细节。 2-使用start_urls作为初始url生成request,并默认把他作为回调函数。 3-在parse中采用css选择器获得原创 2017-09-11 21:04:46 · 522 阅读 · 0 评论 -
爬虫小记(3)
今天做的一个是爬取斗鱼的排行榜。 因为一开始看F12的时候我没能找到如何获取所需要内容的办法,一开始我是想用BeautifulSoup库的Select方法的,但是使用这个方法查找标签的方法只能查到一个空集,我感到很奇怪,因为我使用的标签是一定存在的啊,就算找不到我真正想要的那部分内容也不应该是空集啊。后来我使用了re库的findall方法,但是找到之后并不能正常的以‘utf-8’的编码显原创 2017-11-28 20:09:09 · 484 阅读 · 0 评论 -
爬虫小记(4)
今天算是把百度图片的爬取程序又自己复习了一遍。 百度的图片是静态加载的,从F12的审查元素中是无法找到对应的图片的下载地址等信息的,因此需要通过抓包的方式来实现对图片下载地址的获取。 需要查看看F12的network中的XHR的内容,里面一般只会有两条JSON的信息,也会有相应的请求地址,通过请求地址可以找到对应的JSON文件,把文件loads下来,图片的下载地址其实就藏在DA原创 2017-11-30 22:32:40 · 437 阅读 · 0 评论 -
爬虫小记(2)
自从两个月前说要学习爬虫开始,我其实做了好多准备了,只是开始的有点晚了吧。希望后面的进度能够变的快一点。 我是从视频学习开始的,学习的是北理工的嵩天的课,里面讲了很多爬虫基础的知识,例如最常用的一些python的库,包括Requests、BeautifulSoup库等。 使用这些库就能实现我们想要做的一些基本的功能,包括爬取一些简单的网站的内容,requests库的功能是我觉得最实用的,只依靠原创 2017-11-21 17:43:29 · 463 阅读 · 0 评论