Python爬虫
kyle-fang
希望成为一个牛气哄哄的人工智能科学家
展开
-
Python爬虫-验证码登入
import requestsfrom lxml import etreeheader = {'User-Agent': 'Mozilla/5.0 (X11; U; Linux x86_64;' ' zh-CN; rv:1.9.2.10) Gecko/20100922' ' Ubu...原创 2020-01-09 11:49:55 · 322 阅读 · 0 评论 -
Python爬虫-下载视频
import requestsfrom lxml import etreefrom bs4 import BeautifulSoupimport timeheader = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 ' '...原创 2020-01-09 11:47:32 · 208 阅读 · 0 评论 -
XPath简介
什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准XPath 路径表达式XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。XPath 标准函数XPath 含有超过 100 ...原创 2019-12-31 20:35:19 · 226 阅读 · 0 评论 -
Python爬虫 - 爬取公交线路
import requestsfrom lxml import etreeitems = []import timeheader = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'}def main(): #爬取第一页所有的导航链接 N_list = ...原创 2019-12-31 20:03:49 · 1952 阅读 · 3 评论 -
Python爬虫 - 爬取肯德基门店信息
import requestsimport jsonitem = []header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'}def main(): address = input('城市:') start_page = int(input('...原创 2019-12-31 19:58:24 · 2010 阅读 · 0 评论 -
Python爬虫 -selenium
什么是seleniumselenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行...原创 2019-12-28 21:06:39 · 136 阅读 · 0 评论 -
python爬虫 - 京东评论
爬去京东某手机的评论import urllib.requestimport urllib.parseimport reimport jsonimport jsonpathimport timeitem_list = []def main(): start_page = int(input("开始页面:")) end_page = int(input("结束页面:...原创 2019-12-28 20:47:13 · 358 阅读 · 0 评论 -
python爬虫 - requests库
requests简介我们已经讲解了Python内置的urllib模块,用于访问网络资源。但是,它用起来比较麻烦,而且,缺少很多实用的高级功能。更好的方案是使用requests。它是一个Python第三方库,处理URL资源特别方便。安装requests如果安装了Anaconda,requests就已经可用了。否则,需要在命令行下通过pip安装:$ pip install request...原创 2019-12-28 20:45:03 · 160 阅读 · 0 评论 -
python爬虫 - 爬取豆瓣上的数据
使用xpath来解析,并提取网页中的数据想详细了解xpath请点击xpath教程import urllib.requestimport urllib.parsefrom lxml import etreeimport timeimport jsonitem_list = []def main(): start_page = int(input("请输入起始页:"))...原创 2019-12-28 20:29:00 · 273 阅读 · 0 评论 -
python爬虫 - cookie
什么是cookieCookie 是一些数据, 存储于你电脑上的文本文件中。当 web 服务器向浏览器发送 web 页面时,在连接关闭后,服务端不会记录用户的信息。Cookie 的作用就是用于解决 “如何记录客户端的用户信息”:当用户访问 web 页面时,他的名字可以记录在 cookie 中。在用户下一次访问该页面时,可以在 cookie 中读取用户访问记录。直接使用已知的...原创 2019-12-28 20:21:50 · 166 阅读 · 0 评论 -
python爬虫 - 爬取图片
import urllib.requestimport urllib.parseimport reimport osimport timedef handle_request(url, page): url += str(page) + '/' header = {'User-Agent' : ' Mozilla/5.0 (Windows NT 6.1; Win64;'...原创 2019-12-28 20:09:40 · 165 阅读 · 0 评论 -
python爬虫 - 爬取智联招聘
import urllib.requestimport urllib.parsefrom Bs4 import BeautifulSoupimport lxmldef main(): url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' jl = input('请输入工作地点:') kw = input...原创 2019-12-28 17:01:34 · 1305 阅读 · 0 评论 -
python爬虫 - 爬取励志语录
将爬取到的网页写入文件中import urllib.requesturl = 'http://www.baidu.com'response = urllib.request.urlopen(url=url)print(response)#print(response.read().decode())with open('baidu.html','w',encoding='ut...原创 2019-12-28 15:59:55 · 671 阅读 · 0 评论