bettyantony-CSDN博客

原创【MySQL必知必会】

2020-03-19 23:13:45 105

原创【时间序列】

2020-03-11 17:38:33 153

原创【数据聚合与分组操作】

2020-03-01 23:08:09 212

原创【matplotlib绘图与可视化】

2020-02-25 20:49:56 72

原创【pandas数据规整：连接、联合与重塑】

2020-02-25 16:05:58 71

原创【pandas数据清洗与准备】

2020-02-23 11:25:50 89

原创【MySQL库、表、数据及查询操作基本指令】、【Python和MySQL的交互】

一、MySQL数据库操作指令1.端口号：3306；启动：mysql -u -root -p2.查询版本：select version();3.查询当前时间：select now();4.查询所有数据库：show databases;5.删除数据库：drop database XXX（库名字）;6.切换数据库：use XXX（库名字）;7.查看数据库中的表：show tables;8...

2020-02-17 16:52:47 121

原创【BeautifulSoup】、【使用BeautifulSoup抓取QZZN论坛中每个帖子的标题、url及对应帖子的回复内容】

一、数据解析常用的三种方式——③BeautifulSoup1.使用时需要使用BS转类型response = requests.get(url,headers=self.headers)#转类型-------------<class 'bs4.BeautifulSoup'>#默认bs4会调用你系统中的lxml的解析库警告提示#如果不想看到警告，可以主动设置 bs4的解析库-...

2020-02-14 14:13:00 358

原创【Xpath】、【使用xpath解析方式爬取QZZN论坛中的帖子标题及url】

一、数据解析常用的三种方式——②Xpath1.调用时from lxml import etree2.转解析类型时xpath_data = etree.HTML(data)#将html文档或者xml文档转换成一个etree对象，然后调用对象中的方法查找指定的节点3.xpath返回的数据类型是list，xpath的基本语法#xpath 语法1.节点: / 2.跨节点: // 3....

2020-02-14 10:25:50 468

原创【requests模块与proxy、SSL、cookies】、【正则表达式re】

一、requests模块添加代理（proxy）1.创建IP字典free_proxy = {"http":"114.239.146.120:8080"}2.发送请求时添加参数response = requests.get(url=url, headers=headers, proxies=free_proxy)二、requests忽略https证书认证（SSL）1.解决方法是，告诉W...

2020-02-13 22:10:47 620

原创【urllib手动在请求头中添加Cookies】、【urllib利用CookieJar，代码登录成功后自动保存cookie】、【requests模块】

一、手动在请求头中添加Cookies1.手动登录成功某网站。2.直接获取个人中心的界面，进入开发者模式。3.手动复制对应的Cookies，放在请求头里。headers_cookies = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chr...

2020-02-12 23:23:09 1013

原创【urllib付费IP的两种使用方式】、【urllib模拟admin账户访问内网爬取数据】

一、代码1——付费IP的两种使用方式import urllib.request#付费的代理发送#1.用户名密码（带着）#2.通过验证的处理器发送def monney_proxy_use():#第一种付费方式发送付费的IP地址 #1.代理IP # monney_proxy = {"http":"username:pwd@192.168.12.11:8080"} ...

2020-02-12 21:27:46 130

原创【urllib添加User-Agent防止反爬】、【urllib使用IP代理防止反爬】

一、添加User-Agent防止反爬1.User-Agent的用处：模拟真实的浏览器发送请求，防止反爬。2.添加请求头的两种方式①添加headers的方法1：在urllib.request.Request（url，headers=XXX）中进行传参，代码如下：url = "http://www.baidu.com/" #添加请求头的信息 header = { ...

2020-02-12 11:03:09 568

原创【urllib.request的基本用法】

一、爬虫的工作原理1.确认你抓取的目标的url是哪一个2.使用python代码发送请求获取数据3.解析获取到的数据(精确数据)①找到新的目标（url）②回到第一步（自动化）4.数据持久化二、注意问题1.urllib.request ——url的request模块可以非常方便的抓取url内容，即发送一个get请求到指定的页面，然后返回HTTP的响应。2.python爬取的数据类型可能...

2020-02-12 08:54:10 920

bettyantony的博客