![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
__XYQ
一位普通的大学生
展开
-
抓包工具的配置
爬虫是什么点击这里:https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin&fromtitle=%E7%88%AC%E8%99%AB&fromid=22046949首先,需要有一个抓包工具和一个Chrome浏览器,当然这只是我的方法!我给一个抓包工具吧,当时下载时候第一次下原创 2017-12-10 17:30:56 · 591 阅读 · 0 评论 -
Python3爬虫学习笔记(1.urllib库详解)
1.什么是爬虫:略,到处都有。虽然是入门,不过没有Python基础的同学看起来可能费劲,建议稍学下Python2.requests库初识:打印百度的源代码:import requestsreponse = requests.get("http://www.baidu.com")print(reponse.text)打印头部信息:import requ原创 2017-12-14 21:06:09 · 1516 阅读 · 0 评论 -
Python3爬虫学习笔记(2.Requests库详解)
Requests库功能相比Urllib库更强大,也许是自带的如果没有,cmd输入pip install requests获取即可实例:import requestsresponse = requests.get("http://www.baidu.com")print(type(response))print(response.status_code)print(t原创 2017-12-14 23:32:27 · 4439 阅读 · 0 评论 -
Python3爬虫学习笔记(3.正则详解及实例)
正则表达式要学好,其他库如beautifulsoup虽然简单好用,但是遇到有些无法解决的问题就必须用正则表达式了。结合实例分析:re.match从字符串的起始位置开始匹配最常规的匹配:import recontent = "Hello 123 4567 World_This is a Regex Demo"result = re.match('^Hell原创 2017-12-15 09:07:26 · 495 阅读 · 0 评论 -
Python3爬虫学习笔记(4.BeautifulSoup库详解)
这是一个功能强大的库,可以代替很多需要写正则的地方这是一个第三方解析库,常规安装方法:调出cmd:pip install bs4简单了解:html = """ TITLE / 第一行,第1列 第一行,第2列 第一行,第3列 """from bs4 import Beau原创 2017-12-15 11:49:08 · 1307 阅读 · 1 评论 -
Python3爬虫学习笔记(5.Selenium简单操作介绍)
这是一个很重要的模块,建议学会!这里建议的介绍下,后面会结合实例详细分析首先调出cmd,输入pip install selenium然后输入相应的代码,发现出错,接下来就是让我用来一早上才弄好的:必须到这个网站下载这个,然后把它放在系统PATH下面https://github.com/mozilla/geckodriver/releases访问页面:原创 2017-12-15 15:46:17 · 338 阅读 · 0 评论 -
Python3爬虫简易实例1(Requests正则)
抓取某电影网TOP1001.分析源码,以便于写正则表达式这里是网页关键部分的源码:然后针对它写正则表达式:pattern = re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name"><a' + '.*?>(.*?).*?star">(.*?).*?re原创 2017-12-15 18:06:04 · 953 阅读 · 1 评论