Zhang's Wikipedia

玩就玩大的

Python 爬虫工具 —— fake_useragent

服务器为避免爬虫工具无休止的请求,以减轻负载,会对 user agent 进行校验,即判断某一 user-agent 是否不断地进行请求。可采用如下方式进行绕过服务器的校验。 UserAgent_List = [ "Mozilla/5.0 (Windows NT 6.1) A...

2018-05-28 23:44:04

阅读数:686

评论数:0

Python 爬虫 —— 文件及文件夹操作

0. 文件名、路径信息、拓展名等 #取文件后缀 >>> os.path.splitext("/root/a.py") ('/root/a', '.py') #取目录与文件名 >>> os.path.split("/root/...

2018-01-11 00:04:17

阅读数:1096

评论数:0

著名站点的爬虫 —— 豆瓣

1. 爬取“喜欢这部剧集的人也喜欢 ” import requests from bs4 import BeautifulSoup url = "https://movie.douban.com/subject/25953429/" soup = Beaut...

2018-01-06 23:58:19

阅读数:2385

评论数:0

Python 标准库 —— 邮件(email)与邮件服务器(smtplib)

你真的懂邮件吗?邮件包括如下四部分内容: 发送人:from_addr 接收人:to_addr 主题:subject 正文:msg 其中发送者,接收者,又需要两部分的内容构成:用户名(字符串形式)及其邮件地址(xx@xx.com)。from email.mime.text import MIMETe...

2018-01-03 22:48:15

阅读数:998

评论数:0

User-Agent 及其构造

url = ... user_agent = ... headers = {'User-Agent' : user_agent} req = requests.request(url=url, headers=headers)1. 构造 UA# firefox 浏览器 user_agent = '...

2018-01-03 21:37:47

阅读数:679

评论数:0

Python 爬虫 —— 网页内容解析(lxml)

1. lxmlfrom lxml import etree etree 下的 HTML 对象,其构造函数接受 requests.request 的返回值对象:url = ... user_agent = ... headers = {'User-Agent' : user_agent} req =...

2018-01-03 21:28:49

阅读数:396

评论数:0

Python 网络爬虫与信息获取(二)—— 页面内容提取

1. 获取超链接python获取指定网页上所有超链接的方法 links = re.findall(b’”((http|ftp)s?://.*?)”’, html) links = re.findall(b’href=”(.*?)”’) html 为 url 返回的 html 内容,可通过以下方...

2017-07-31 11:21:22

阅读数:518

评论数:0

Python 网络爬虫与信息获取(一)—— requests 库的网络爬虫

requests 的基本爬取 url 页面的 api;

2017-04-01 22:43:55

阅读数:507

评论数:0

Python 爬虫 —— BeautifulSoup

from bs4 import BeautifulSoup % 首字母大写,显然这是一个类 1. BeautifulSoup 类 HTML 解析类(parser) r = requests.get(...) soup = BeautifulSoup(r.tex...

2016-11-05 18:48:18

阅读数:432

评论数:0

Python 爬虫 —— scrapy

0. 创建网络爬虫的常规方法 进入命令行(操作系统的命令行,不是 python 的命令行)windows: cmd ⇒ c:\Uses\Adminstrator> Linux:$

2016-10-27 16:09:25

阅读数:508

评论数:0

Python 标准库 —— urllib(下载进度)

在可使用的各种网络函数库中,功能最为强大的可能是 urllib 和 urllib2 了。通过它们在网络上访问文件,就好像访问本地文件一样。通过一个简单的函数调用(urlopen),几乎可以把任何 url 所指向的东西作为程序的输入。想象一下,如果将这两个模块和 re 模块结合使用的效果:可以下载 ...

2016-04-20 23:14:20

阅读数:651

评论数:0

Python 爬虫 —— 使用 pandas

索引与切片切片(slice)是索引的延伸,索引是取单个元素,slice 是在连续的索引上取值,不支持索引的字典(dict)/ 集合(set),自然也无法支持切片。(注,字典和集合不支持索引,说明其不可序);

2016-04-07 08:29:07

阅读数:338

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭