- 博客(14)
- 收藏
- 关注
原创 【MySQL库、表、数据及查询操作基本指令】、【Python和MySQL的交互】
一、MySQL数据库操作指令1.端口号:3306;启动:mysql -u -root -p2.查询版本:select version();3.查询当前时间:select now();4.查询所有数据库:show databases;5.删除数据库:drop database XXX(库名字);6.切换数据库:use XXX(库名字);7.查看数据库中的表:show tables;8...
2020-02-17 16:52:47
118
原创 【BeautifulSoup】、【使用BeautifulSoup抓取QZZN论坛中每个帖子的标题、url及对应帖子的回复内容】
一、数据解析常用的三种方式——③BeautifulSoup1.使用时需要使用BS转类型response = requests.get(url,headers=self.headers)#转类型-------------<class 'bs4.BeautifulSoup'>#默认bs4会调用你系统中的lxml的解析库 警告提示#如果不想看到警告,可以主动设置 bs4的解析库-...
2020-02-14 14:13:00
352
原创 【Xpath】、【使用xpath解析方式爬取QZZN论坛中的帖子标题及url】
一、数据解析常用的三种方式——②Xpath1.调用时from lxml import etree2.转解析类型时xpath_data = etree.HTML(data)#将html文档或者xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点3.xpath返回的数据类型是list,xpath的基本语法#xpath 语法1.节点: / 2.跨节点: // 3....
2020-02-14 10:25:50
461
原创 【requests模块与proxy、SSL、cookies】、【正则表达式re】
一、requests模块添加代理(proxy)1.创建IP字典free_proxy = {"http":"114.239.146.120:8080"}2.发送请求时添加参数response = requests.get(url=url, headers=headers, proxies=free_proxy)二、requests忽略https证书认证(SSL)1.解决方法是,告诉W...
2020-02-13 22:10:47
618
原创 【urllib手动在请求头中添加Cookies】、【urllib利用CookieJar,代码登录成功后自动保存cookie】、【requests模块】
一、手动在请求头中添加Cookies1.手动登录成功某网站。2.直接获取个人中心的界面,进入开发者模式。3.手动复制对应的Cookies,放在请求头里。headers_cookies = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chr...
2020-02-12 23:23:09
988
原创 【urllib付费IP的两种使用方式】、【urllib模拟admin账户访问内网爬取数据】
一、代码1——付费IP的两种使用方式import urllib.request#付费的代理发送#1.用户名密码(带着)#2.通过验证的处理器发送def monney_proxy_use():#第一种付费方式发送付费的IP地址 #1.代理IP # monney_proxy = {"http":"username:pwd@192.168.12.11:8080"} ...
2020-02-12 21:27:46
128
原创 【urllib添加User-Agent防止反爬】、【urllib使用IP代理防止反爬】
一、添加User-Agent防止反爬1.User-Agent的用处:模拟真实的浏览器发送请求,防止反爬。2.添加请求头的两种方式①添加headers的方法1:在urllib.request.Request(url,headers=XXX)中进行传参,代码如下:url = "http://www.baidu.com/" #添加请求头的信息 header = { ...
2020-02-12 11:03:09
561
原创 【urllib.request的基本用法】
一、爬虫的工作原理1.确认你抓取的目标的url是哪一个2.使用python代码发送请求获取数据3.解析获取到的数据(精确数据)①找到新的目标(url)②回到第一步(自动化)4.数据持久化二、注意问题1.urllib.request ——url的request模块可以非常方便的抓取url内容,即发送一个get请求到指定的页面,然后返回HTTP的响应。2.python爬取的数据类型可能...
2020-02-12 08:54:10
912
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人