爬虫
天佑降星
qq:760858151
展开
-
爬取知乎发现中标题内容
首先是需要有一个request库,然后要把headers改成浏览器,不然默认的pyhton会被知乎给禁止,new一个r来请求网页,吧原来的headers换位浏览器,然后正则匹配标题,至于re.compile()从compile()函数的定义中,可以看出返回的是一个匹配对象,它单独使用就没有任何意义,需要和findall(), search(), match()搭配使用。findall作用...原创 2019-05-23 23:42:08 · 480 阅读 · 0 评论 -
电影天堂标题爬取
这次我们要爬取电影天堂的标题,演员,和排名及封面图片链接。所以要使用正则表达式,进行处理。首先模拟浏览器的headers,判断是否请求成功。返回源码。def get_one_page(url): headers = { 'User_Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.3...原创 2019-05-28 22:22:30 · 635 阅读 · 0 评论 -
使用xpath匹配猫眼top100标题名(萌新简化版)
米娜桑,之前我们使用了正则匹配猫眼top100是不是感觉意犹未尽呢,这次我们来使用xpath匹配标题,为简化表示,这次只提取top100的标题。思路分析:1、首先对猫眼top100网页进行请求,老样子,把headers伪装成浏览器,猫眼的反爬机制并不强,很明显,那是放开让我们爬的,不然不可能这么轻易的获取的。把他包装成一个函数,如果请求成功,其status_code的值为200。如果请求失败...原创 2019-06-09 11:25:17 · 1289 阅读 · 1 评论 -
Ajax使用,爬取微博正文,点赞,评论数。
本人声明,该文章仅为学习所用,未做任何其他用途。各位看官老爷们大家好,这一次我们来聊聊使用Ajax爬取微博评论数,正文,点赞数。首先我们想想思路。一、最开始的,也是我们用的最多和必要的,模拟浏览器爬取页面。这一点想必不用多说了。headers = { 'Host': 'm.weibo.cn', 'Referer': 'https://m.weibo.cn/u/28...原创 2019-07-19 23:26:46 · 1313 阅读 · 0 评论 -
聊聊爬虫的一些思路
【回顾篇】各位看官老爷们,我们一直沉迷与上手,是时候该想想之前的东西了,也当当沉淀一下。首先,我们想想爬虫到底该怎么写,怎么构造,怎么请求。我们所看见的网页的内容,图片,视频,不管他用何种方式加密亦或是隐藏,他总是要给我们呈现出来的。因此呢,我们抓住这一点,只要我们的编译器和浏览器的请求方式,或者说各个方面都与浏览器一致,我们便可以得到相应的需要的东西。之前我组长也说过,任何视...原创 2019-07-25 21:48:05 · 169 阅读 · 0 评论