![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
对明天的期待丶
这个作者很懒,什么都没留下…
展开
-
Python爬虫UserAgent的作用
1、为什么要使用User Agent?因为一些网站不喜欢外界的爬虫消耗自己的服务器的大量资源,因此他自身就写了一个反爬虫程序,不使用代理的话,他们就能识别出你是爬虫,从而给你进行重定向无数次,导致你的爬虫报错,因此代理出现了,代理是我们的爬虫程序模拟浏览器或者手机端等访问,达到掩盖爬虫的技术,由此看来,人民的智慧还是很重要的。2、一些常用的代理有哪些?1.AndroidMozil...原创 2018-11-19 00:12:45 · 2826 阅读 · 0 评论 -
python爬虫详解
我们一般的python爬虫过程如下:1、使用requests模块取get打开url,获取页面源码2、使用xpath或者正则取匹配我们想要的数据仔细看来,爬虫并不难,只是我们被他的使用给吓到了,下面我们直接上代码,在代码注释中去理解:import requestsimport reimport pymysqlfrom lxml import etreefrom pymong...原创 2018-11-21 01:06:18 · 813 阅读 · 0 评论 -
Xpath如何提取一个标签里的所有文本?
content = etree.HTML(text)h = content.xpath('//h1')h1 = h[0].xpath('string(.)').strip()实例测试:测试网页地址:测试地址代码如下:import requestsimport reimport pymysqlfrom lxml import etreefrom pymongo imp...原创 2018-11-18 11:36:42 · 16052 阅读 · 5 评论