自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 【MySQL必知必会】

2020-03-19 23:13:45 102

原创 【时间序列】

2020-03-11 17:38:33 146

原创 【数据聚合与分组操作】

2020-03-01 23:08:09 210

原创 【matplotlib绘图与可视化】

2020-02-25 20:49:56 70

原创 【pandas数据规整:连接、联合与重塑】

2020-02-25 16:05:58 69

原创 【pandas数据清洗与准备】

2020-02-23 11:25:50 85

原创 【MySQL库、表、数据及查询操作基本指令】、【Python和MySQL的交互】

一、MySQL数据库操作指令1.端口号:3306;启动:mysql -u -root -p2.查询版本:select version();3.查询当前时间:select now();4.查询所有数据库:show databases;5.删除数据库:drop database XXX(库名字);6.切换数据库:use XXX(库名字);7.查看数据库中的表:show tables;8...

2020-02-17 16:52:47 118

原创 【BeautifulSoup】、【使用BeautifulSoup抓取QZZN论坛中每个帖子的标题、url及对应帖子的回复内容】

一、数据解析常用的三种方式——③BeautifulSoup1.使用时需要使用BS转类型response = requests.get(url,headers=self.headers)#转类型-------------<class 'bs4.BeautifulSoup'>#默认bs4会调用你系统中的lxml的解析库 警告提示#如果不想看到警告,可以主动设置 bs4的解析库-...

2020-02-14 14:13:00 352

原创 【Xpath】、【使用xpath解析方式爬取QZZN论坛中的帖子标题及url】

一、数据解析常用的三种方式——②Xpath1.调用时from lxml import etree2.转解析类型时xpath_data = etree.HTML(data)#将html文档或者xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点3.xpath返回的数据类型是list,xpath的基本语法#xpath 语法1.节点: / 2.跨节点: // 3....

2020-02-14 10:25:50 461

原创 【requests模块与proxy、SSL、cookies】、【正则表达式re】

一、requests模块添加代理(proxy)1.创建IP字典free_proxy = {"http":"114.239.146.120:8080"}2.发送请求时添加参数response = requests.get(url=url, headers=headers, proxies=free_proxy)二、requests忽略https证书认证(SSL)1.解决方法是,告诉W...

2020-02-13 22:10:47 618

原创 【urllib手动在请求头中添加Cookies】、【urllib利用CookieJar,代码登录成功后自动保存cookie】、【requests模块】

一、手动在请求头中添加Cookies1.手动登录成功某网站。2.直接获取个人中心的界面,进入开发者模式。3.手动复制对应的Cookies,放在请求头里。headers_cookies = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chr...

2020-02-12 23:23:09 988

原创 【urllib付费IP的两种使用方式】、【urllib模拟admin账户访问内网爬取数据】

一、代码1——付费IP的两种使用方式import urllib.request#付费的代理发送#1.用户名密码(带着)#2.通过验证的处理器发送def monney_proxy_use():#第一种付费方式发送付费的IP地址 #1.代理IP # monney_proxy = {"http":"username:pwd@192.168.12.11:8080"} ...

2020-02-12 21:27:46 128

原创 【urllib添加User-Agent防止反爬】、【urllib使用IP代理防止反爬】

一、添加User-Agent防止反爬1.User-Agent的用处:模拟真实的浏览器发送请求,防止反爬。2.添加请求头的两种方式①添加headers的方法1:在urllib.request.Request(url,headers=XXX)中进行传参,代码如下:url = "http://www.baidu.com/" #添加请求头的信息 header = { ...

2020-02-12 11:03:09 561

原创 【urllib.request的基本用法】

一、爬虫的工作原理1.确认你抓取的目标的url是哪一个2.使用python代码发送请求获取数据3.解析获取到的数据(精确数据)①找到新的目标(url)②回到第一步(自动化)4.数据持久化二、注意问题1.urllib.request ——url的request模块可以非常方便的抓取url内容,即发送一个get请求到指定的页面,然后返回HTTP的响应。2.python爬取的数据类型可能...

2020-02-12 08:54:10 912

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除