Python爬虫
Tomcatist
这个作者很懒,什么都没留下…
展开
-
请求头和响应头
请求报头 1. Host (主机和端口号) Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。 2. Connection (链接类型) Connection:表示客户端与服务连接类型 \1. Client 发起一个包含 Connection:keep-alive 的请求,HTTP/1.1使用 keep-alive 为默认值。 \2. Server收到请求后: o 如果 Server 支持 keep-alive,回复一个包含 Co原创 2020-07-24 18:32:15 · 1100 阅读 · 0 评论 -
实战:百度贴吧图片爬虫(Urllib+xpath)
实战:百度贴吧图片爬虫(Urllib+xpath) #百度贴吧图片爬虫 import urllib import urllib.request from lxml import etree # 全局取消证书验证 import ssl ssl._create_default_https_context = ssl._create_unverified_context class Spider(object): def __init__(self): self.beginPage=1原创 2020-07-24 18:29:37 · 365 阅读 · 0 评论 -
实战:爬取糗事百科(多线程)
实战:爬取糗事百科(多线程) #多线程爬取糗事百科 # 使用了线程库 import threading # 队列 import queue import requests import time from lxml import etree # https://www.qiushibaike.com/8hr/page/1/ # https://www.qiushibaike.com/8hr/page/2/ # https://www.qiushibaike.com/8hr/page/3/ #'//div原创 2020-07-24 18:28:57 · 264 阅读 · 0 评论 -
实战:爬取音乐网站(Requests)
实战:爬取音乐网站(Requests) import re # python 的正则库 import requests # python 的requests库 import time # page=int(input("请输入您要爬取的页数:")) songID=[] songName=[] page_size = int(input("请问要爬取第几页呢:")) for i in range(0,page_size): url="http://www.htqyy.com/top/m原创 2020-07-24 18:28:22 · 1219 阅读 · 0 评论 -
实战:贴吧爬虫(Urllib)
实战:贴吧爬虫 # 实战:贴吧爬虫 from urllib import request import urllib import re import random #反爬虫1 : 伪装浏览器的爬虫 #构造请求头信息 agent1="Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0原创 2020-07-24 18:27:47 · 447 阅读 · 0 评论 -
十、数据写入
#写入到Excel import xlsxwriter #创建文件,并添加一个工作表 workbook=xlsxwriter.Workbook('demo.xlsx') worksheet=workbook.add_worksheet() #在指定位置写入数据 worksheet.write("A1","这是A1的数据") worksheet.write("A2","这是A2的数据") #关闭表格文件 workbook.close() #爬取便民查询网常用号码,并写入到Excel import re原创 2020-07-24 18:27:15 · 263 阅读 · 0 评论 -
九、fiddler手机抓包
fiddler官网:https://www.telerik.com/fiddler 通过Fiddler抓包工具,可以抓取手机的网络通信,但前提是手机和电脑处于同一局域网内(WI-FI或热点),然后进行以下设置: 用Fiddler对Android应用进行抓包 打开Fiddler设置 在Connections里设置允许连接远程计算机,确认后重新启动Fiddler 在命令提示符下输入ipconfig查看本机IP 打开Android设备的“设置”->“WLAN”,找到你要连接的网络.原创 2020-07-24 18:26:45 · 124 阅读 · 0 评论 -
八、scrapy框架
创建项目 scrapy startproject 项目名 创建爬虫 scrapy genspider 爬虫识别名称 ‘要爬取的主机地址’ 运行爬虫 scrapy crawl 爬虫识别名称 1.Scrapy框架的安装 pip3 install scrapy 2.Scrapy框架的简单使用 常用命令 创建项目:scrapy startproject xxx 进入项目:cd xxx #进入某个文件夹下 创建爬虫:scrapy genspider xxx(爬虫名) xxx..原创 2020-07-24 18:22:05 · 130 阅读 · 0 评论 -
七、验证码识别
#识别车牌号 from aip import AipOcr import re APP_ID = '15469265' API_KEY = 'rAGFtOChXtO7mnRPiwXg1Frf' SECRET_KEY = 'Ailvoijh4X7lQIAoZ58UsGPlaDCmLIt7' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) """ 读取图片 """ def get_file_content(filePath): with open(fil原创 2020-07-24 18:21:17 · 154 阅读 · 0 评论 -
六、多线程
import threading import time def run(name): print(name,"线程执行了!") time.sleep(5) #创建2个线程对象 t1=threading.Thread(target=run,args=("t1",)) t2=threading.Thread(target=run,args=("t2",)) #启动线程 t1.start() t2.start() #等待子线程执行完毕后再执行主线程后面的内容 t1.join() t2.原创 2020-07-24 18:20:45 · 97 阅读 · 0 评论 -
五、BeautifulSoup
#BeautifulSoup模块简介和安装 from bs4 import BeautifulSoup #CSS 选择器:BeautifulSoup4 #和lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器 #主要的功能也是如何解析和提取 HTML/XML 数据。 #模块下载安装:pip install bs4 #基础例子 html = """ <html><head><title>The Dormouse's story</t原创 2020-07-24 18:20:15 · 82 阅读 · 0 评论 -
四、xpath表达式
#xpath表达式 #有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? #有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档, #然后用 XPath 查找 HTML 节点或元素。 #我们需要安装lxml模块来支持xpath的操作。 #使用 pip 安装:pip install lxml #解析字符串形式html text =''' <div> <ul> <li class="item-0"><a原创 2020-07-24 18:19:39 · 138 阅读 · 0 评论 -
三、正则表达式
import re #原子:正则表达式中实现匹配的基本单位 #元字符:正则表达式中具有特殊含义的字符 #以普通字符作为原子(匹配一个普通字符) a="湖南湖北广东广西" pat="湖北" result=re.search(pat,a) print(result) #匹配通用字符 #\w 任意字母/数字/下划线 #\W 和小写w相反 #\d 十进制数字 #\D 除了十进制数以外的值 #\s 空白字符 #\S 非空白字符 b="136892763900" pat2="1\d\d\d\d\d\d原创 2020-07-24 18:19:07 · 246 阅读 · 0 评论 -
二、Requests
import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap\ pleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Sa\ fari/537.36" } wd={"wd":"中国"} response=requests.get("http://www.baidu.com/s?",params=wd,headers=headers原创 2020-07-24 18:18:31 · 497 阅读 · 0 评论 -
一、Urllib
一、urllib #伪装浏览器的爬虫 from urllib import request import re import random # 全局取消证书验证 import ssl ssl._create_default_https_context = ssl._create_unverified_context url=r"http://www.baidu.com/" #构造请求头信息 agent1="Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-原创 2020-07-24 18:16:21 · 196 阅读 · 0 评论