Python爬虫自学
bettyantony
这个作者很懒,什么都没留下…
展开
-
【MySQL库、表、数据及查询操作基本指令】、【Python和MySQL的交互】
一、MySQL数据库操作指令 1.端口号:3306;启动:mysql -u -root -p 2.查询版本:select version(); 3.查询当前时间:select now(); 4.查询所有数据库:show databases; 5.删除数据库:drop database XXX(库名字); 6.切换数据库:use XXX(库名字); 7.查看数据库中的表:show tables; 8...原创 2020-02-17 16:52:47 · 152 阅读 · 0 评论 -
【BeautifulSoup】、【使用BeautifulSoup抓取QZZN论坛中每个帖子的标题、url及对应帖子的回复内容】
一、数据解析常用的三种方式——③BeautifulSoup 1.使用时需要使用BS转类型 response = requests.get(url,headers=self.headers) #转类型-------------<class 'bs4.BeautifulSoup'> #默认bs4会调用你系统中的lxml的解析库 警告提示 #如果不想看到警告,可以主动设置 bs4的解析库-...原创 2020-02-14 14:13:00 · 383 阅读 · 0 评论 -
【Xpath】、【使用xpath解析方式爬取QZZN论坛中的帖子标题及url】
一、数据解析常用的三种方式——②Xpath 1.调用时 from lxml import etree 2.转解析类型时 xpath_data = etree.HTML(data)#将html文档或者xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点 3.xpath返回的数据类型是list,xpath的基本语法 #xpath 语法1.节点: / 2.跨节点: // 3....原创 2020-02-14 10:25:50 · 503 阅读 · 0 评论 -
【requests模块与proxy、SSL、cookies】、【正则表达式re】
一、requests模块添加代理(proxy) 1.创建IP字典 free_proxy = {"http":"114.239.146.120:8080"} 2.发送请求时添加参数 response = requests.get(url=url, headers=headers, proxies=free_proxy) 二、requests忽略https证书认证(SSL) 1.解决方法是,告诉W...原创 2020-02-13 22:10:47 · 650 阅读 · 0 评论 -
【urllib手动在请求头中添加Cookies】、【urllib利用CookieJar,代码登录成功后自动保存cookie】、【requests模块】
一、手动在请求头中添加Cookies 1.手动登录成功某网站。 2.直接获取个人中心的界面,进入开发者模式。 3.手动复制对应的Cookies,放在请求头里。 headers_cookies = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chr...原创 2020-02-12 23:23:09 · 1073 阅读 · 0 评论 -
【urllib付费IP的两种使用方式】、【urllib模拟admin账户访问内网爬取数据】
一、代码1——付费IP的两种使用方式 import urllib.request #付费的代理发送 #1.用户名密码(带着) #2.通过验证的处理器发送 def monney_proxy_use(): #第一种付费方式发送付费的IP地址 #1.代理IP # monney_proxy = {"http":"username:pwd@192.168.12.11:8080"} ...原创 2020-02-12 21:27:46 · 157 阅读 · 0 评论 -
【urllib添加User-Agent防止反爬】、【urllib使用IP代理防止反爬】
一、添加User-Agent防止反爬 1.User-Agent的用处:模拟真实的浏览器发送请求,防止反爬。 2.添加请求头的两种方式 ①添加headers的方法1:在urllib.request.Request(url,headers=XXX)中进行传参,代码如下: url = "http://www.baidu.com/" #添加请求头的信息 header = { ...原创 2020-02-12 11:03:09 · 604 阅读 · 0 评论 -
【urllib.request的基本用法】
一、爬虫的工作原理 1.确认你抓取的目标的url是哪一个 2.使用python代码发送请求获取数据 3.解析获取到的数据(精确数据) ①找到新的目标(url)②回到第一步(自动化) 4.数据持久化 二、注意问题 1.urllib.request ——url的request模块可以非常方便的抓取url内容,即发送一个get请求到指定的页面,然后返回HTTP的响应。 2.python爬取的数据类型可能...原创 2020-02-12 08:54:10 · 956 阅读 · 0 评论