
爬虫
五道口纳什
wx公众号/B站:五道口纳什
展开
-
Python 爬虫 —— scrapy
0. 创建网络爬虫的常规方法进入命令行(操作系统的命令行,不是 python 的命令行)windows:cmd ⇒ c:\Uses\Adminstrator>Linux:$原创 2016-10-27 16:09:25 · 1158 阅读 · 0 评论 -
Python 爬虫工具 —— fake_useragent
服务器为避免爬虫工具无休止的请求,以减轻负载,会对 user agent 进行校验,即判断某一 user-agent 是否不断地进行请求。可采用如下方式进行绕过服务器的校验。UserAgent_List = [ "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Saf...原创 2018-05-28 23:44:04 · 1889 阅读 · 0 评论 -
著名站点的爬虫 —— 豆瓣
1. 爬取“喜欢这部剧集的人也喜欢 ”import requestsfrom bs4 import BeautifulSoupurl = "https://movie.douban.com/subject/25953429/"soup = BeautifulSoup(requests.get(url).text, 'html.parser')also_likes = set()l原创 2018-01-06 23:58:19 · 3828 阅读 · 0 评论 -
Python 爬虫 —— BeautifulSoup
from bs4 import BeautifulSoup % 首字母大写,显然这是一个类1. BeautifulSoup 类HTML 解析类(parser)r = requests.get(...)soup = BeautifulSoup(r.text, 'html.parser')2. 查找和定位方法Learn Beautiful Soup原创 2016-11-05 18:48:18 · 1072 阅读 · 0 评论 -
Python 标准库 —— 邮件(email)与邮件服务器(smtplib)
你真的懂邮件吗?邮件包括如下四部分内容:发送人:from_addr接收人:to_addr主题:subject正文:msg其中发送者,接收者,又需要两部分的内容构成:用户名(字符串形式)及其邮件地址(xx@xx.com)。from email.mime.text import MIMETextfrom email.header import Headerfrom email.utils原创 2018-01-03 22:48:15 · 2985 阅读 · 0 评论 -
Python 爬虫 —— 网页内容解析(lxml)
1. lxmlfrom lxml import etreeetree 下的 HTML 对象,其构造函数接受 requests.request 的返回值对象:url = ...user_agent = ...headers = {'User-Agent' : user_agent}req = requests.request(url=url, headers=headers)html = et原创 2018-01-03 21:28:49 · 1657 阅读 · 0 评论 -
User-Agent 及其构造
url = ...user_agent = ...headers = {'User-Agent' : user_agent}req = requests.request(url=url, headers=headers)1. 构造 UA# firefox 浏览器user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:57.0) Gecko/原创 2018-01-03 21:37:47 · 2425 阅读 · 0 评论 -
Python 爬虫 —— 文件及文件夹操作
0. 文件名、路径信息、拓展名等#取文件后缀>>> os.path.splitext("/root/a.py")('/root/a', '.py')#取目录与文件名>>> os.path.split("/root/a.py")('/root', 'a.py')>>> os.path.basename("/root/a.py")'a.py'>>> os.path.dir原创 2018-01-11 00:04:17 · 3075 阅读 · 0 评论 -
Python 标准库 —— urllib(下载进度)
在可使用的各种网络函数库中,功能最为强大的可能是 urllib 和 urllib2 了。通过它们在网络上访问文件,就好像访问本地文件一样。通过一个简单的函数调用(urlopen),几乎可以把任何 url 所指向的东西作为程序的输入。想象一下,如果将这两个模块和 re 模块结合使用的效果:可以下载 web 页面,提取信息,以及自动生成报告等。urllib.urlopen():打开远程文件>>> fro原创 2016-04-20 23:14:20 · 1997 阅读 · 0 评论 -
Python 网络爬虫与信息获取(一)—— requests 库的网络爬虫
requests 的基本爬取 url 页面的 api;原创 2017-04-01 22:43:55 · 1235 阅读 · 0 评论 -
Python 网络爬虫与信息获取(二)—— 页面内容提取
1. 获取超链接python获取指定网页上所有超链接的方法links = re.findall(b’”((http|ftp)s?://.*?)”’, html)links = re.findall(b’href=”(.*?)”’) html 为 url 返回的 html 内容,可通过以下方式获取 html = urllib.request.urlopen(url).read()html原创 2017-07-31 11:21:22 · 1674 阅读 · 1 评论 -
Python 爬虫 —— 使用 pandas
索引与切片切片(slice)是索引的延伸,索引是取单个元素,slice 是在连续的索引上取值,不支持索引的字典(dict)/ 集合(set),自然也无法支持切片。(注,字典和集合不支持索引,说明其不可序);原创 2016-04-07 08:29:07 · 1195 阅读 · 0 评论