Python爬虫
Python爬虫初步学习
HarryStudyPython_ing
Always On The Road!
展开
-
Python爬虫:第七章 动态加载数据处理 selenium模块(25)
第七章 动态加载数据处理 selenium模块example 医药局example 医药局from selenium import webdriverfrom lxml import etreefrom time import sleep#实例化一个浏览器对象(传入浏览器的驱动成)bro = webdriver.Chrome(executable_path='./chromedriver')#让浏览器发起一个指定url对应请求bro.get('http://scxk.nmpa.gov.cn原创 2021-10-15 16:10:14 · 306 阅读 · 0 评论 -
Python爬虫:第七章 动态加载数据处理 学习大纲(24)
第七章 动态加载数据处理selenium模块的基本使用问题:selenium模块和爬虫之间具有怎样的关联?- 便捷的获取网站中动态加载的数据- 便捷实现模拟登录什么是selenium模块?- 基于浏览器自动化的一个模块。selenium使用流程:- 环境安装:pip install selenium- 下载一个浏览器的驱动程序(谷歌浏览器)- 下载路径:http://chromedriver.storage.googleapis.com/index.html- 驱动程序和浏览器的映射原创 2021-10-14 10:13:44 · 296 阅读 · 0 评论 -
Python爬虫:第六章 高性能异步爬虫 学习大纲 (20)
第六章 高性能异步爬虫高性能异步爬虫高性能异步爬虫目的:在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式- 1.多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 弊端:无法无限制的开启多线程或者多进程。- 2.线程池、进程池(适当的使用): 好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。 弊端:池中线程或进程的数量是有上限。- 3.单线程+异步协程(推荐):eve原创 2021-10-13 15:10:18 · 192 阅读 · 0 评论 -
Python爬虫:协程 & 异步编程(asyncio)
文章目录协程 & 异步编程(asyncio)1. 协程的实现1.1 greenlet1.2 yield1.3 asyncio1.4 async & awit1.5 小结2.协程的意义2.1 爬虫案例2.2 小结3.异步编程3.1 事件循环3.2 协程和异步编程3.2.1 基本应用3.2.2 await3.2.3 Task对象3.2.4 asyncio.Future对象3.2.5 futures.Future对象3.2.6 异步迭代器3.2.6 异步上下文管理器3.3 小结4. uvloop5原创 2021-08-23 19:07:39 · 1766 阅读 · 0 评论 -
Python爬虫:第五章 requests模块高级操作 综合案例-古诗文网模拟登录(19)
第五章 requests模块高级操作综合案例-古诗文网模拟登录综合案例-古诗文网模拟登录from CodeClass import YDMHttpimport requestsfrom lxml import etree#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户用户名 username = 'bobo328410948' # 普通用户密码 password = 'bobo328410948'转载 2021-08-19 15:27:14 · 271 阅读 · 1 评论 -
Python爬虫:第五章 requests模块高级操作 代理操作 (18)
第五章 requests模块高级操作代理操作代理操作#需求:import requestsurl = 'https://www.baidu.com/s?wd=ip'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}page_text =原创 2021-08-19 15:25:24 · 457 阅读 · 0 评论 -
Python爬虫:第五章 requests模块高级操作 requests模块的cookie处理 (17)
第五章 requests模块高级操作requests模块的cookie处理requests模块的cookie处理#编码流程:#1.验证码的识别,获取验证码图片的文字数据#2.对post请求进行发送(处理请求参数)#3.对响应数据进行持久化存储from CodeClass import YDMHttpimport requestsfrom lxml import etree#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户转载 2021-08-19 15:21:56 · 176 阅读 · 0 评论 -
Python爬虫:第五章 requests模块高级操作 模拟用户登录(16)
第五章 requests模块高级操作example1 模拟用户登录example1 模拟用户登录#编码流程:#1.验证码的识别,获取验证码图片的文字数据#2.对post请求进行发送(处理请求参数)#3.对响应数据进行持久化存储from CodeClass import YDMHttpimport requestsfrom lxml import etree#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户用户名原创 2021-08-19 15:18:23 · 403 阅读 · 0 评论 -
Python爬虫:第五章 requests模块高级操作 学习大纲(15)
第五章 requests模块高级操作 学习大纲模拟登陆引入分析requests模块的cookie处理notes会话和Cookies无状态HTTPrequests模块的代理IP操作notes引入什么是代理代理的作用相关代理网站模拟登陆模拟登录: - 爬取基于某些用户的用户信息。需求:对人人网进行模拟登录。 - 点击登录按钮之后会发起一个post请求 - post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证 码......) - 验证码:每次请求都会变化需求:爬取当前用户的原创 2021-08-13 22:41:19 · 430 阅读 · 0 评论 -
Python爬虫:第四章 验证码识别 example 古诗文网验证码识别(14)
第四章 验证码识别古诗文网验证码识别import requestsfrom lxml import etreefrom CodeClass import YDMHttp#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户用户名 username = 'bobo328410948' # 普通用户密码 password = 'bobo328410948' # 软件ID,开发者分成必要参数。登录开发者原创 2021-08-13 18:15:33 · 246 阅读 · 0 评论 -
Python爬虫:第四章 验证码识别 学习大纲 (13)
第四章 验证码识别 学习大纲what is 验证码?验证码和爬虫之间的爱恨情仇?识别验证码的操作云打码的使用流程:学习案例附录-示例代码展示平台提供的类平台提供的调用程序what is 验证码?是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。验证码和爬虫之间的爱恨情仇?反爬机制:验证码.识别验证码图片中原创 2021-08-13 18:10:21 · 234 阅读 · 0 评论 -
Python爬虫:第三章 数据解析 xpath解析(12)
第三章 数据解析xpath 解析xpath 解析基础example1 爬取58二手房中的房源信息example2 解析下载图片数据example3 全国城市名称爬取xpath 解析xpath 解析基础#!/usr/bin/env python # -*- coding:utf-8 -*-from lxml import etreeif __name__ == "__main__": #实例化好了一个etree对象,且将被解析的源码加载到了该对象中 tree = etree.par原创 2021-08-13 17:59:42 · 422 阅读 · 0 评论 -
Python爬虫:第三章 数据解析 bs4解析(11)
第三章 数据解析example4 bs4解析将本地的html文档中的数据加载到该对象中爬取三国演义小说所有的章节标题和章节内容附件:本地的test.htmlexample4 bs4解析将本地的html文档中的数据加载到该对象中#!/usr/bin/env python # -*- coding:utf-8 -*-from bs4 import BeautifulSoupif __name__ == "__main__": #将本地的html文档中的数据加载到该对象中 fp =转载 2021-08-11 20:19:41 · 125 阅读 · 0 评论 -
Python爬虫:第三章 数据解析 正则解析(10)
第三章 数据解析爬取糗事百科的一张图片import requestsif __name__ == "__main__": #如何爬取图片数据 url = 'https://pic.qiushibaike.com/system/pictures/12460/124602731/medium/LEVD6YQL9VZ06DJ3.jpg' #content返回的是二进制形式的图片数据 # text(字符串) content(二进制)json() (对象) img_dat原创 2021-08-11 10:18:46 · 89 阅读 · 0 评论 -
Python爬虫:第三章 数据解析 学习大纲(9)
第三章 数据解析聚焦爬虫:爬取页面中指定的页面内容。数据解析分类数据解析原理概述正则解析bs4进行数据解析xpath解析聚焦爬虫:爬取页面中指定的页面内容。编码流程:指定url发起请求获取响应数据数据解析持久化存储数据解析分类正则bs4xpath(***)数据解析原理概述解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储1.进行指定标签的定位2.标签或者标签对应的属性中存储的数据值进行提取(解析)正则解析<div class="thumb"&g转载 2021-08-07 10:02:34 · 119 阅读 · 0 评论 -
Python爬虫:第二章 requests模块基础 example6 爬取国家药品监督管理总局数据(8)
example6: 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据#----- 实战代码6:-----# 综合练习# 需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据http://125.35.6.84:81/xk/import requestsimport jsonfrom fake_useragent import UserAgentua = UserAgent(use_cache_server=False,verify_ssl=False原创 2021-08-06 17:16:43 · 1482 阅读 · 0 评论 -
Python爬虫:第二章 requests模块基础 example5 爬取肯德基餐厅查询(7)
第二章 requests模块基础example5_爬取肯德基餐厅查询爬取肯德基餐厅查询#----- 实战代码5:-----# 基于requests模块ajax的post请求# 需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据import requestsif __name__ == "__main__": #指定ajax-post请求的url(通过抓包进行获取) url = 'http://www.kfc原创 2021-08-06 17:13:34 · 349 阅读 · 0 评论 -
Python爬虫:第二章 requests模块基础 example4 爬取豆瓣电影分类排行榜(6)
example4: 爬取豆瓣电影分类排行榜#----- 实战代码4:-----# 基于requests模块ajax的get请求# 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据import requestsif __name__ == "__main__": #指定ajax-get请求的url(通过抓包进行获取) url = 'https://movie.douban.com/j/chart/top_list' #定制请求原创 2021-08-06 17:07:50 · 226 阅读 · 0 评论 -
Python爬虫:第二章 requests模块基础 example3 破解百度翻译(5)
example3: 破解百度翻译#----- 实战代码3:-----# 基于requests模块的post请求# 需求:破解百度翻译import requestsimport jsonword = input('enter a English word:')#自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X原创 2021-08-06 17:06:40 · 155 阅读 · 0 评论 -
Python爬虫:第二章 requests模块基础 example2 爬取搜狗指定词条对应的搜索结果页面(4)
example2: 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)补充:反爬机制User-Agent:请求载体的身份标识,使用浏览器发起的请求,请求载体的身份标识为浏览器,使用爬虫程序发起的请求,请求载体为爬虫程序。UA检测:相关的门户网站通过检测请求该网站的载体身份来辨别该请求是否为爬虫程序,如果是,则网站数据请求失败。因为正常用户对网站发起的请求的载体一定是基于某一款浏览器,如果网站检测到某一请求载体身份标识不是基于浏览器的,则让其请求失败。因此,UA检测是我们整个课程中遇到的第二种原创 2021-08-06 17:03:50 · 567 阅读 · 0 评论 -
Python爬虫:第二章 requests模块基础 example1 爬取搜狗首页的页面数据(3)
example1: 爬取搜狗首页的页面数据#----- 实战代码1:-----# - 需求: 爬取搜狗首页的页面数据#导包import requests#step_1:指定urlurl = 'https://www.sogou.com/'#step_2:发起请求:使用get方法发起get请求,该方法会返回一个响应对象。参数url表示请求对应的urlresponse = requests.get(url=url)#step_3:获取响应数据:通过调用响应对象的text属性,返回响应对象中存储原创 2021-08-06 17:02:04 · 190 阅读 · 1 评论 -
Python爬虫:第二章 requests模块基础 学习大纲(2)
requests模块初步学习引入what is requests环境安装使用流程/编码流程Examplesexample1: 爬取搜狗首页的页面数据example2: 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)example3: 破解百度翻译example4: 爬取豆瓣电影分类排行榜example5: 爬取肯德基餐厅查询中指定地点的餐厅数据example6: 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据引入在python实现的网络爬虫中,用于网络请求发送的模块有两种,转载 2021-08-01 17:46:50 · 397 阅读 · 1 评论 -
Python爬虫:第一章 爬虫基础简介(1)(零基础自学)
爬虫基础简介What is Web Crawler?爬虫合法性探究爬虫究竟是合法还是违法的?爬虫所带来风险主要体现在以下2个方面:那么作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?哪些语言可以实现爬虫爬虫的分类反爬机制反反爬策略robots协议http&https协议what is http协议 ?HTTP工作原理常见的请求头信息常见的响应头信息https协议https加密算法写在前面:学习Python爬虫一直都in the ToDoList,前面因为种种原因搁置,也有好一段时间没有更新博客原创 2021-07-31 20:47:02 · 2705 阅读 · 14 评论