python
洋葱小万666
请大家多多支持,本人会持续更新爬虫教程嘞!
展开
-
pyecharts制作中国地图
from pyecharts import options as optsfrom pyecharts.charts import Map#此代码段表示一个函数,次函数makeMap带有三个参数,分别是省份名称,省份新增人口,省份确诊人口def makeMap(ProName,ProIncrease,ProConfirm): length = len(ProName) listinfo = [] #我们需要一个ProvinceName的TXT文件,来映射中英文的各个省份名字的转化。 wit原创 2021-06-24 15:59:59 · 1299 阅读 · 2 评论 -
获取具体当地的疫情数据
此文件为一个脚本,肯定需要调用的用户输入具体省份txt = “广东”getDetailCityInfo(txt) 即可。#爬取具体的县数据需要丁香医生,但是丁香医生是需要手机微信看,只能通过手机下载fiddler证书然后设置代理本机WiFi,才能在电脑上面抓包#后来发现了 pc端的页面,可以抓取到丁香医生的数据,数据在js里面,我们直接urllib.request整个网页,然后用bs4进行获取具体细节import jsonimport timeimport urllib.requesti原创 2021-06-23 17:34:47 · 335 阅读 · 0 评论 -
获取世界疫情数据
# # made by 杨庆华import urllib.request,urllib.parseimport timeimport json,csvdef handleRequest(url): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'} requ原创 2021-06-23 17:14:58 · 159 阅读 · 0 评论 -
获取中国疫情数据并下载到本地
# # made by 杨庆华import urllib.request,urllib.responseimport json,csv,time# 构建请求对象def handle_request(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.3原创 2021-06-22 16:39:52 · 2142 阅读 · 0 评论 -
Flask模板继承
模板可以继承,首先你需要有一个纯模板的base.html,里面没有任何数据,都是变量,来靠子模板进行填充。子模板只需要用base.html中标记的变量在自己的文件里进行改写增添即可。本次代码文件结构如下所示:首先我们需要用到一个py文件,一个shouye.html用于刚进去就可以显示页面不报错,他可以很简单的是一个hello内容。然后需要一个base.html文件作为父模板,一个son.html作为子模板。通过对子模板的不断修改添加,便可以访问子模板的时候映射完整的父模板。# 这是基模板.py#原创 2021-01-31 12:03:33 · 357 阅读 · 0 评论 -
添加全局的变量和函数,复用模板
#添加自定义模板对象from flask import Flask,render_templateapp = Flask(__name__)@app.route('/')def index(): return render_template('模板环境对象.html')#这样即使不传参也可以在任意模板中使用bar函数和foo变量def bar(): return '我是全局的bar函数'foo = '这是全局的foo'app.jinja_env.globals['bar'] = ba原创 2021-01-31 00:28:39 · 104 阅读 · 0 评论 -
WSGI基于BS模式的理解
from wsgiref.simple_server import make_server,demo_appip = '127.0.0.1';port = 9999;# 创建serverserver = make_server(ip,port,demo_app);#运行serverserver.serve_forever()这样一个WSGI模板,浏览器搜索127.0.0.1:9999就可以。这个demo_app就是一个函数,我也可以自己写。The following codes c原创 2021-01-19 22:56:02 · 165 阅读 · 0 评论 -
用正则re库爬取糗事百科网图片
正则表达单字符:. 除了换行以外的所有字符[aoe] a或者o或者e [a-e] —>abcde中的任意一个\d 数字0-9\D 非数字\w 数字或者字母或者下划线、中文\W 非w\s 所有的空白字符\S 所有的非空白字符数量修饰:*任意多次+至少一次?可可有可无,0或者1次{m} 固定m次{m,} 至少m次{m,n} 大于m小于n次边界:\b\B$ 以 什么结尾^ 以什么开头分组:() 这种小括号,视为一个整体 —原创 2021-01-13 01:23:27 · 179 阅读 · 0 评论 -
爬取豆瓣的json数据
# # made by 杨庆华import urllib.requestimport urllib.parseimport osimport timefileName = "豆瓣"#创建文件夹,如果不存在就创建if not os.path.isdir(fileName): os.mkdir(fileName)url = 'https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&ac原创 2021-01-11 20:37:54 · 304 阅读 · 2 评论 -
简单的SMTP发送邮件
废话不多说直入正题我们以网易邮箱发给QQ邮箱为例首先你需要注册一个网易邮箱,(你的邮箱用户名就是***@163.com)接着进去设置pop3/SMTP 启动,并且设置好授权码首先要知道什么是授权码。授权码是用于登录第三方邮件客户端的专用密码python对SMTP协议的支持有smtplib和email两个模块email负责构造邮件,smtplib负责发送邮件import smt...原创 2020-01-22 00:16:29 · 1431 阅读 · 0 评论 -
python二维码制作
二维码导入MyQR库:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple MyQRfrom MyQR import myqrmyqr.run(words="https://blog.csdn.net/qq_40844663", picture = '1.gif', #背景图 colorized = True, #col...原创 2020-01-17 23:03:26 · 139 阅读 · 0 评论 -
phantomjs
PhantomJS无界面浏览器selenium+phantoms 是爬虫的终极解决方案一些数据包含在js里面,就可以通过这个来爬取配置环境变量,见此博客https://blog.csdn.net/qq_42543312/article/details/81569125from selenium import webdriverimport timepath = r'D:\爬虫...原创 2020-01-17 00:33:40 · 206 阅读 · 0 评论 -
刷博客访问量
用selenium刷博客访问量from selenium import webdriverimport time#模拟浏览器对象,如果对象去操作浏览器path = r'D:\爬虫\selenium\chromedriver.exe';browser = webdriver.Chrome(executable_path = path)#print(browser)url = 'h...原创 2020-01-15 22:30:24 · 2007 阅读 · 0 评论 -
selenium完整版方法
Selenium元素定位的30种方式参考: https://blog.csdn.net/qq_32897143/article/details/80383502Selenium对网页的控制是基于各种前端元素的,在使用过程中,对于元素的定位是基础,只有准去抓取到对应元素才能进行后续的自动化控制,我在这里将对各种元素定位方式进行总结归纳一下。这里将统一使用百度首页(www.baidu.c...转载 2020-01-14 23:04:29 · 293 阅读 · 1 评论 -
selenium自动化爬取实例
最常用的几种selenium爬取方法find_element_by_id 根据id找节点find_element_by_tagname 根据name找节点find_elements_by_xpath 根据xpath找find_elements_by_class_name 根据标签名找find_elements_by_css_selector 根据class名字找find...原创 2020-01-14 22:56:20 · 524 阅读 · 0 评论 -
selenium
selenium测试前端框架用的,具有自动化功能第三方的库,对外提供接口操作浏览器,让浏览器完成自动化操作在cmd中执行命令安装selenium库pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium操作谷歌浏览器必须有谷歌驱动chromedriver.exe 必须与谷歌浏览器的版本相匹配chromedr...原创 2020-01-13 22:09:14 · 103 阅读 · 0 评论 -
jsonpath
python处理json格式的函数``json.dumps() #将字典或者列表转化为json格式的字符串 json.loads() 将json格式转化为python对象json.dump() 将字典列表转化为json字符串,并写入文件 json.load()将json字符串从文件中读取出来,并转化为对象xpath是处理HTML的,,jsonpath是处理json数据的,都是...原创 2020-01-13 21:59:14 · 249 阅读 · 0 评论 -
图片懒加载
懒加载首先我们需要知道前端的懒加载技术,我们请求一个网页,会发送至少二十到三十的请求,但是实际上我们并不需要所有的图片。我们会根据想要的图片点击,然后再访问服务器,服务器发送过来请求,这样就大大的提高了网络的利用资源。拿图片举例来说吧,在一个网页中,通过js来监控是否为用户可视区里的图片,当某些图片到达用户可视区的时候,图片标签会自动添加src属性。以下以http://sc.chinaz....原创 2020-01-11 22:51:07 · 112 阅读 · 0 评论 -
Xpath
今天来学习一下Xpath吧,这是python的第三种精准爬取方法首先我们需要掌握xml。 用来传输存储数据 是可扩展的标记语言 自行定义标签htmlxml用来显示数据存储数据固定标签自定义标签xpath在xml文档中查找指定元素信息,是一种路径表达式xpath语法// 从任意位置找到你 不考虑位置. 选取当前节点./ 从当前节点开始往下开始找...原创 2019-12-20 00:27:53 · 172 阅读 · 0 评论 -
BeautifuSoup
正如我们所知道的那样,精准爬取一共三种方式re(正则库)beautifulsoupxpath现在我们就看一下beautifulsoup吧,中文叫做美味汤,实际上是帮助我们精准爬取指定内容的语法库吧首先安装bs4 pip install bs4 需要依赖第三方库 piip install lxmlpip安装可能太慢了,所以你可以用咱国内的源。我一直用的是清华大学的pip镜...原创 2019-12-20 00:10:07 · 239 阅读 · 0 评论 -
一个爬取西祠代理的代码
import urllib.requestfrom bs4 import BeautifulSoupimport reimport timeimport random# --------------------公用方法-----------------------------class CommanCalss: def __init__(self): self.header={...原创 2019-12-19 23:43:28 · 373 阅读 · 0 评论 -
了解代理,技高一筹
代理,如果没有,那就告诉人家你是python3.6,,,那还爬锤子!?所定制请求头,创建请求对象 Request()高级功能:使用代理,cookiehandler 处理器、自定义Opener代理是什么?代替厂家卖货,代考,代练,代驾,代练 正向代理 客户端->代理服务器->服务端 反向代理百度可以给很多地方同时服务,子服务器如果频繁的请求服务器,ip会被封掉,...原创 2019-12-19 23:39:53 · 135 阅读 · 0 评论 -
爬取实例--笑话网
import urllib.requestimport urllib.parseimport re#这个函数是构建请求对象def handle_request(url,page=None): if page != None: url = url+str(page)+'.html' #headers这个是模拟浏览器的请求头,伪装成谷歌浏览器,因为如果你是个爬虫,是会被查出来的 he...原创 2019-12-19 22:50:42 · 166 阅读 · 0 评论 -
爬取百度翻译的代码
这个就是url然后我们输入参数apple,分析地址栏中的参数不难看出这是post传参,因此我们需要用到Fiddler抓包工具,小伙伴们可以去我的资源下载对找到那个响应的html点击进去之后找到webform表单,里面的参数我们需要直接复制粘贴,然后以python字典的方式存入。(注意引号,逗号,冒号都不要少)拿到post参数以后我们就可以进行像get一样操作了,但是还需要处理posturl参数postUrl = urllib.parse.urlencode(formdata).encode.原创 2021-01-11 12:30:28 · 337 阅读 · 2 评论 -
爬虫---urllib库
urllib库urllib库是我们模拟浏览器发送请求的库,是自带的。大家也可以通过pip安装python2:有两个,urllib和urllib2python3:整合为一个,urllib.parseurllib```python import urllib.request #url = 'http://www.baidu.com/indx.html?name=goudan&a...原创 2019-11-24 23:43:05 · 135 阅读 · 0 评论 -
Fiddler的配置
Fiddler第一次肯定需要安装安全证书,没毛病,装就完了PS:我的资源里面可以下载Fiddler抓包工具原创 2021-01-10 12:01:00 · 100 阅读 · 0 评论 -
Fiddler的使用
Fiddler的工作原理当Fiddler是以代理服务器形式工作的,默认ip地址是127.0.0.1:8888,如果Fiddler是非正常退出,那么仍会占用端口,导致其他网页访问失败,因此大家退出Fiddler的时候,要点击File,点击Exit常用快捷键help 会打开官方文档select 选择会话 select audio找音频cls 清屏?.png 找到png格式的图片bpu (www.baidu.com) 截获request(百度)命令中断修改打开Rule点击automati.原创 2021-01-11 10:04:37 · 175 阅读 · 0 评论 -
爬虫--抓包工具Fiddler
安装Fiddler工具一个网页的呈现,中间布置依次http请求,平均一个网页10-15个http请求。xhr是ajax的请求谷歌自带一个抓包NetWork 点击请求,右边栏就是请求的详细信息 Reauest headers responsequery string :get 参数form data :post参数fillder : 抓包 1. 配置 tools...原创 2019-11-24 23:26:08 · 289 阅读 · 0 评论 -
爬虫--初识
爬虫每个网站都有robots.txt口头协议1.获取url2.模拟浏览器发送请求3.解析数据,并且提取数据urllib\requests\bs4解析网页内容,正则表达式bs4,xpath,jsonpath设计到动态htmlselenium+phantomjs\chromeheadlessscrapy框架高性能框架的使用srapy-redis组件 redis,分布式爬虫爬...原创 2019-11-24 23:10:05 · 160 阅读 · 0 评论