爬虫
半日闲12138
这个作者很懒,什么都没留下…
展开
-
bs4学习
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/# coding: utf-8from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title></head> ...原创 2019-11-06 18:30:38 · 190 阅读 · 0 评论 -
re爬取糗图
import urllib.requestimport reimport osimport time# 输入起始页码和结束页码start_page = int(input('请输入起始页码-'))end_page = int(input('请输入结束页码-'))#https://www.qiushibaike.com/pic/page/2/url = 'https://www.q...原创 2019-10-31 18:55:56 · 668 阅读 · 0 评论 -
re学习(二)
(1)单字符匹配 \d 0-9 [0-9] \D 除了\d \w 数字、字母、下划线、一个中文 [0-9a-zA-Z_] \W 除了\w \s 匹配所有的空白字符,比如空格,\t \r \n \S 除了\s . 可以任意字符,除了 \n [...原创 2019-10-29 08:29:42 · 226 阅读 · 0 评论 -
re学习(一)
# coding: utf-8import re'''re.match()re.search() 返回的都是一个对象,obj.group()re.findall() 返回的是一个列表re.compile()re.sub()'''string = '<div>浪花淘尽英雄,是非成败转头空!</div></div></div...原创 2019-10-28 21:12:19 · 332 阅读 · 0 评论 -
使用cookie模拟登陆
访问登录后的页面(1)抓包,抓取浏览器的cookie值,然后到代码中应用import urllib.requesturl = 'http://www.renren.com/960481378/profile'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHT...原创 2019-10-25 08:51:05 · 607 阅读 · 0 评论 -
代理--ip池的使用--阿布云的使用
代理import urllib.requestproxy = { "http": "34.84.238.121"}url = "https://www.baidu.com/s?ie=UTF-8&wd=ip"handler = urllib.request.ProxyHandler(proxies=proxy)opener = urllib.request.build...原创 2019-10-23 18:17:04 · 930 阅读 · 0 评论 -
Handler处理器、自定义Opener
在请求里面,还有两个高级功能,一个是代理,一个是cookie,学习handler和opener使用的步骤: 见代码# coding: utf-8import sysimport iosys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')import urllib.requesturl = 'http:...原创 2019-10-18 09:34:43 · 133 阅读 · 0 评论 -
爬虫异常处理
# coding: utf-8import urllib.requestimport urllib.errorurl = "https://www.cnblogs.com/"try: response = urllib.request.urlopen(url)except urllib.error.HTTPError as e: print(e)except url...原创 2019-10-18 08:53:48 · 221 阅读 · 0 评论 -
爬取百度贴吧
#coding: utf-8import urllib.requestimport urllib.parseimport time# http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=0# http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50# http://ti...原创 2019-10-17 22:26:27 · 248 阅读 · 0 评论 -
模拟各种请求方式(二)
ajax-post:# coding: utf-8import urllib.requestimport urllib.parseurl = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname"cname = input("请输入当前城市:")formdata = { 'cname': cname, ...原创 2019-10-17 08:18:43 · 232 阅读 · 0 评论 -
模拟各种请求方式(一)
get请求:# coding: utf-8import urllib.requestimport urllib.parse# https://www.baidu.com/s?ie=UTF-8&wd=%E6%97%A5%E6%9C%ACkeyword = input("请输入关键字:")url = "https://www.baidu.com/s?"data = { ...原创 2019-10-15 09:24:27 · 583 阅读 · 0 评论 -
编码转换及拼接
#coding: utf-8import urllib.parseurl = "https://www.baidu.com/s?ie=UTF-8&wd=美女"print(urllib.parse.quote(url)) # https%3A//www.baidu.com/s%3Fie%3DUTF-8%26wd%3D%E7%BE%8E%E5%A5%B3string = url...原创 2019-10-13 16:50:46 · 469 阅读 · 0 评论 -
防盗链
#coding:utf-8import urllib.request"""# 下载普通图片url = "http://pic22.nipic.com/20120725/9676681_001949824394_2.jpg"response = urllib.request.urlopen(url)with open("k.jpg", "wb")as fp: fp.write(r...原创 2019-10-13 16:02:49 · 284 阅读 · 0 评论 -
http协议及抓包工具
http协议 网站的工作原理:见图形 url介绍: 一个完整的url: http://www.baidu.com:80/index.html?username=goudan&password=123#lala 协议 主机 端口 请求资源 参数(query_string) 锚点 h...原创 2019-10-12 09:10:35 · 568 阅读 · 0 评论 -
urllib.request.urlretrieve及添加headers
下载图片:import urllib.request# url = "http://www.baidu.com/"## response = urllib.request.urlretrieve(url, "hh.html")## print(response)image_url = "https://img04.sogoucdn.com/net/a/04/link?url=ht...原创 2019-10-12 09:02:47 · 2204 阅读 · 0 评论 -
urllib库解析
# coding:utf-8import urllib.requesturl = "https://www.baidu.com"response = urllib.request.urlopen(url)print(response) # 内存地址print(response.url) # 打印urlprint(response.status) # 200#prin...原创 2019-10-10 17:29:54 · 175 阅读 · 0 评论 -
http协议与过程
1、什么是HTTP协议?1)是基于请求与响应的应用层协议,底层协议TCP保证了数据可靠传输2)通过url进行客户端与服务器之间的数据交互3)是一种C/S(B/S)模式的协议,客户端向服务器发起请求,服务器处理请求并且返回响应4)该协议是一种无状态的协议(不会记录用户的访问状态)C/S模式Client/Server;即客户端/服务器 交互性强 提供了更安全的存取模式B/S模式B...原创 2018-11-08 21:51:18 · 777 阅读 · 0 评论