![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 63
Nlxfzx
这个作者很懒,什么都没留下…
展开
-
python爬虫:网址无法请求和某一特定链接求取方法
首先说一下,我开这个博客,写博客主要是为了记录自己平时学习研究过程中的重点问题,可能格式,表达什么的都会很乱。当然,如果我的问题对大家有所帮助那就更好了,因为我也是一个新人。很多人在用python爬虫时可能会遇到网址无法请求,这是因为很多网页都是加密的,所以我们需要设定特定的headers。res = requests.get("http://www.qichacha.com/search原创 2017-08-08 08:45:34 · 2711 阅读 · 1 评论 -
python爬虫学习过程
首先,如果你有别的语言的基础的话,我感觉可以直接入手python爬虫,然后通过具体实例来完善自己的python;如果没有的话,我感觉还是要答题上了解学习下python;一:了解什么是python爬虫:这个百度什么都有很多解释。二:对于urllib,urllib2库的了解使用,可以爬取网页的源代码,这是你爬取数据的第一步。当然这种源代码的爬取方法很多,request,post,get等等。原创 2017-08-01 10:43:43 · 480 阅读 · 0 评论 -
python:代理ip获取,验证,使用
很多网站服务器都有反爬机制,作为一个用python爬取数据的人,必须掌握怎么破解反爬机制。我们在不断爬取大量数据的时候,ip很可能被网站封住,这样我们就无法继续爬取数据,怎么解决?:代理ip代理ip怎么获取?:你可以百度自行搜索代理ip,然后可以手动粘贴保存,也可以直接对某网站的代理ip进行爬取。但是,我们获得的代理Ip并不是每一个都是有效的,我们德验证ip的有效性。很简单:你原创 2017-08-16 13:31:41 · 3424 阅读 · 0 评论 -
通过Python对各个页面链接的有效爬取
前面提到过关于某一页信息的如何爬取,但是我想爬取在下一页面的信息怎么爬取?我不能通过打开下一页,然后获取下一页的网址在通过python爬取吧,这样就和爬取第一页没有什么区别了。有没有办法直接爬取下一页的链接然后get到你获取的url在爬取信息呢?刚开始我想到用正则表达式来匹配各个页面的链接地址,但是可能我的idle版本问题或者别的问题(我也没有解决),总之不能通过。于是我就想先爬取这一原创 2017-08-02 13:22:27 · 5685 阅读 · 0 评论 -
xpath的使用方法以及python爬取数据的保存
前面写了几篇关于自己爬虫时的进度以及遇到的问题,今天系统的爬取了一个网站之后又对爬虫方法有了更好的认识,所以今天我会尽量用明晰的语言来给大家介绍这些方法。首先说明下我要爬取的内容:http://www.zbj.com/appdingzhikaifa/sq10054601.html 打开这个网址会有很多店铺,我的第一步就是爬取这个网址中店铺所对应的公司名,代码在我前面的文章中有原创 2017-08-04 14:45:05 · 3517 阅读 · 0 评论 -
python爬虫数据保存到本地各种格式的方法
最近爬虫又解决了很多问题,算是保存这部分的吧。首先,我们如果想要抓取本地txt文件中的内容拿到特定网址去搜索。然后爬取搜索结果的话,这个很简单:f=open('C://Python27//1.txt') #只需要通过这句代码打开你本地对应路径的文件就OK但是如果你想要打开excel表格呢?这里就需要下载xlrd库。百度搜索就可以,解压。在cmd中进入解压文件夹然后输原创 2017-08-11 15:53:42 · 18806 阅读 · 0 评论 -
关于python爬取网页上指定内容
最近刚开始接触python,主要是最近工作是关于爬虫方面的。这是自己爬的一个猪八戒网站上面的店铺的链接。因为没接触过python,所以百度了很多大神的方法:http://blog.csdn.net/danielntz/article/details/51861168主要用到了BeautifulSoup。在这里,我感觉最重要的就是关于网页源代码指定信息标签的获取了,因为一直抓原创 2017-07-28 15:30:12 · 6425 阅读 · 0 评论 -
关于python爬虫去重问题
我有一篇文章写的关于爬猪八戒网的一些公司名,但是有重复,怎么去重?for result in results:if result.text not in res:res.append(result.text)count+=1可以添加一个list,把你爬下的内容放进去,然后用if判断,看是否已经进行爬取,如果没有就添加。但是这么爬下来有个问题就是他原创 2017-07-28 17:29:43 · 2568 阅读 · 0 评论 -
python模拟网站登录
想要在python里模拟登录一个网站,最近学习了下,很简单:直接上代码:import selenium.webdriver as webdriverfrom selenium.webdriver.common.keys import Keysdriver=webdriver.Chrome()url='https://graph.qq.com/oauth/show?which原创 2017-08-19 16:46:35 · 1432 阅读 · 0 评论