Python爬虫
python爬虫的使用,及爬取网站实例。
Chains-X ♔
做人就像松树一样,不言不语,静默着,深沉的,它有着茁壮的树干,它有着强大的内心,它的强大是低调的,它虽然不言不语,但它的一切都是天地可鉴的。
展开
-
Python爬虫中动态HTML、Selenium+PhantomJS、验证码、Tesseract
动态HTML爬虫跟反爬虫动态HTML介绍JavaScraptjQueryAjaxDHTMLPython采集动态数据从Javascript代码入手采集Python第三方库运行JavaScript,直接采集你在浏览器看到的页面Selenium + PhantomJSSelenium: web自动化测试工具自动加载页面获取数据截屏安装: pip install...原创 2019-08-24 17:01:13 · 927 阅读 · 0 评论 -
CCS选择器BeautifulSoup4 在爬虫中的使用
CSS选择器 BeautifulSoup4现在使用BeautifulSoup4官方文档几个常用提取信息工具的比较:正则: 很快,不好用,不许安装beautifulsoup:慢,使用简单,安装简单lxml: 比较快,使用简单,安装一般from urllib import requestfrom bs4 import BeautifulSoupurl = 'http:...原创 2019-08-23 11:16:54 · 244 阅读 · 0 评论 -
Python爬虫中XML、XPath、lxml的使用
XMLXML(EXtensibleMarkupLanguage)http://www.w3school.com.cn/xml/index.asp<?xml version="1.0" encoding="utf-8"?><bookstore> <book category="cooking"> <title lang=...原创 2019-08-21 11:44:19 · 240 阅读 · 0 评论 -
Python爬虫中页面解析和数据提取的方法、正则表达式的使用
页面解析和数据提取结构数据: 先有的结构,在谈数据JSON文件JSON Path转换成Python类型进行操作(json类)XML文件转换成python类型(xmltodict)XPathCSS选择器正则非结构化数据:先有数据,再谈结构文本电话号码邮箱地址通常处理此类数据,使用正则表达式Html文件正则XPathCSS选择器...原创 2019-08-20 15:20:32 · 537 阅读 · 0 评论 -
Python爬虫中Requests的使用
Requests-献给人类HTTP for Humans,更简洁更友好继承了urllib的所有特征底层使用的是urllib3开源地址: 开源地址中文文档: 中文文档安装: conda install requestsget请求requests.get(url)requests.request(“get”, url)可以带有headers和parmas参数import...原创 2019-08-19 20:22:29 · 220 阅读 · 0 评论 -
Python爬虫中SSL、JS加密、Ajax使用
SSLSSL就是指遵守SSL安全套阶层协议的服务器数字证书(SercureSocketLayer)美国网警公司CA(CertificateAuthority)是数字证书认证中心,是发放、管理、废除数字整数的收信人的第三方机构遇到不信任的SSL证书,需要单独处理from urllib import requestimport ssl# 利用非认证上下文环境替换认证的上下文环境...原创 2019-08-18 17:03:10 · 314 阅读 · 0 评论 -
Python爬虫中cookie&session的介绍、以及使用cookie免密登陆
cookie & session由于http协议的无状态性,人们为了弥补这个,所采用的一个补充协议cookie是发放给用户(即http浏览器)的一段信息,session是保存在服务器上对应的另一半信息,用来记录用户信息cookie和session的区别存放位置不同cookie不安全session保存在服务器上,会过期单个cookie保存数据不超过4k,很多浏览器...原创 2019-08-17 15:45:12 · 344 阅读 · 0 评论 -
Python爬虫中使用UserAgent身份隐藏、ProxyHandler代理服务器的使用
3.UserAgent 身份隐藏UserAgent:用户代理,UA,属于heads的一部份,服务器通过UA来判断访问者身份常见的UA值,使用的时候可以直接复制粘贴,也可以用浏览器访问的时候抓包 1.Android Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML,...原创 2019-08-16 17:12:10 · 322 阅读 · 0 评论 -
Python中爬虫介绍及、urllib模块的介绍及使用
1. 爬虫介绍爬虫定义:网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。两大特征:能按照作者要求下载数据或者内容能自动在网络上流窜三大步骤:下载网页提取正确的信息根据一定规则自动跳到另外的网页上执行上两布工作爬虫分类通用爬虫:把网页上的内容全部宕下来专有爬虫:(聚焦爬虫)Python网络包介绍...原创 2019-08-15 13:25:53 · 144 阅读 · 0 评论