python爬虫个人文档整理

最新推荐文章于 2024-06-24 14:19:29 发布

phoenix_main

最新推荐文章于 2024-06-24 14:19:29 发布

阅读量948

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/phoenix_main/article/details/83474439

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

之前一直在做web开发，最近根据公司需要再次搞起了爬虫，虽然之前搞过，可是许多东西都忘得东东西西，敲起键盘来也是特别费劲，影响开发效率。今天周末，So特来整理一下。其实我不太喜欢写博客的，可是不写的话，又有不太好的地方，不是记不住什么，而是许多公司看重这个，虽然我觉得技术牛的永远是技术牛的，小白也会慢慢的成长。同时作为一个程序员，总要为这个社会发点实用的干货，方便我们一起共同成长，毕竟闭门造车的生活很难熬，希望今后的日子里，我愿在技术大牛的路上与大家共同前行，有什么做的不好的地方，希望大家多多指教。下面进入爬虫正题：

1.urllib方法

1、常用方法
    1、urllib.request.urlopen("网址")
      1、作用 ：向网站发起一个请求并获取响应
        字节流 = response.read()
        字符串 = response.read().decode("utf-8")
        encode() : 字符串 --> bytes
        decode() : bytes  --> 字符串
      2、重构User-Agent
        1、不支持重构User-Agent ：urlopen()
        2、支持重构User-Agent
          urllib.request.Request(添加User-Agent)
    2、urllib.request.Request("网址",headers="字典")
      User-Agent是爬虫和反爬虫斗争的第一步,发送请求必须带User-Agent
      1、使用流程(见 02_urllib.request.Request.py)
        1、利用Request()方法构建请求对象
	    2、利用urlopen()方法获取响应对象
	    3、利用响应对象的read().decode("utf-8")获取内容

#02_urllib.request.Request.py
import urllib.request

url = "http://www.baidu.com/"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}
# 1.创建请求对象(有User-Agent)
req = urllib.request.Request(url,headers=headers)
# 2.获取响应对象(urlopen())
res = urllib.request.urlopen(req)
# 3.响应对象read().decode("utf-8")
#html = res.read().decode("utf-8")
#print(html)
print(res.getcode())
print(res.geturl())

      2、响应对象response的方法
        1、read() ：读取服务器响应的内容
	    2、getcode()
	     1、作用
	    	 返回HTTP的响应码
	      	 print(respones.getcode())
	      	 200 ：成功
	     	 4XX ：服务器页面出错
	    	 5XX ：服务器出错
       3、geturl()
	    	1、作用 ：返回实际数据的URL(防止重定向问题)
2、urllib.parse模块
    1、urlencode(字典)  ## 注意：参数一定要为字典
       urlencode({"wd":"美女"})
       wd=%e8.......
       du = {"wd":"江西唯康信息网络有限公司"}

     2、quote(字符串) 
      	key = urllib.parse.quote("字符串")
      	baseurl = "http://www.baidu.com/s?wd="
      	key = input("请输入要搜索的内容:")
      	#进行quote()编码
      	key = urllib.parse.quote(key)
     	url = baseurl + key
      	print(url)

#例：
import urllib.request
import urllib.parse

#拼接URL
baseurl = "http://www.baidu.com/s?"
key = input("请输入要搜索的内容:")
#进行urlencode()编码
wd = {"wd":key}
key = urllib.parse.urlencode(wd)

url = baseurl + key
headers = {"User-Agent":"Mozilla/5.0"}
# 创建请求对象
req = urllib.request.Request(url,headers=headers)
# 获取响应对象
res = urllib.request.urlopen(req)
html = res.read().decode("utf-8")

#写入本地文件
with open("搜索.html","w",encoding="gb18030") as f:
    f.write(html)

3、请求方式及实例
  1、GET
    1、特点 ：查询参数在URL地址中显示
    2、案例 ：抓取百度贴吧
  2、POST(在Request方法中添加data参数)
    1、urllib.request.Request(url,data=data,headers=headers)
    data ：表单数据以bytes类型提交,不能是str
    2、处理表单数据为bytes类型
      1、把Form表单数据定义为字典data
      2、urlencode(data)
      3、转为bytes数据类型 ：bytes()
    3、有道翻译案例
    4、有道翻译返回的是json格式的字符串,如何把json格式的字符串转换为Python中字典
      import json
      r_dict = json.loads(r_json)

2.re表达式

 正则表达式re
    1、使用流程
      1、创建编译对象 ：p = re.compile("正则表达式")
      2、对字符串匹配 ：r = p.match("字符串")
      3、获取匹配结果 ：print(r.group())
    2、常用方法
      1、match(s) ：字符串开头的第1个,返回对象
      2、search(s)：从开始往后找,匹配第1个,返回对象
      3、group()  ：从match或search返回对象中取值
      4、findall()：所有全部匹配,返回一个列表
    3、表达式
      .  匹配任意字符(不能匹配\n)
      \d 数字
      \s 空白字符
      \S 非空白字符  
      [...] 包含[]内容 ：A[BCD]E  --> ABE  ACE  ADE 
      \w 字母、数字、_

      *  0次或多次
      ?  0次或1次
      +  1次或多次
      {m} m次
      {m,n} m-n次  AB{1,3}C --> ABC ABBC ABBBC

      贪婪匹配(.*) ：在整个表达式匹配成功的前提下,尽可能多的匹配*

      非贪婪匹配(.*?) ：在整个表达式匹配成功的前提下,尽可能少的匹配*
    4、示例(贪婪模式和非贪婪模式)
      见 ：见贪婪匹配和非贪婪匹配示例.py

#贪婪匹配和非贪婪匹配示例.py
import re

s = """<div><p>仰天大笑出门去,我辈岂是蓬蒿人</div></p>
<div><p>床前明月光,疑是地上霜</div></p>"""
# 创建编译对象
# re.S作用 ：使 . 能够匹配 \n 在内的所有字符
# 贪婪匹配 : .*  
p = re.compile('<div><p>.*</div></p>',re.S)
#非贪婪匹配 : .*?
p = re.compile('<div><p>.*?</div></p>',re.S)
# 匹配字符串s
r = p.findall(s)
print(r)

    5、findall()的分组

    #例：
	import re
	#解释 ：先按照整体匹配出来,然后再匹配()中的
	# 如果有2个或者多个(),则以元组的方式取显示

	s = "A B C D"
	p1 = re.compile('\w+\s+\w+')
	print(p1.findall(s))
	# ['A B','C D']

	p2 = re.compile('(\w+)\s+\w+')
	# 第1步 ：['A B','C D']
	# 第2步 ：['A','C']
	print(p2.findall(s))

	p3 = re.compile('(\w+)\s+(\w+)')
	# 第1步 ：['A B','C D']
	# 第2步 ：[('A','B'),('C','D')]
	print(p3.findall(s))

3.requests方法

  1、安装(用管理员身份去打开Anaconda Prompt)
    Anaconda   : conda install requests
    Windows cmd: python -m pip install requests
      ## 以管理员身份去执行pip安装命令
  2、常用方法
    1、get(url,headers=headers) : 发起请求,获取响应对象
    2、response属性
      1、response.text ：返回字符串类型
      2、response.content : 返回bytes类型
        1、应用场景 ：爬取非结构化数据
		2.示例如下：

import requests

url = "http://www.baidu.com/"
headers = {"User-Agent":"Mozilla/5.0"}
# 发请求获响应
response = requests.get(url,headers=headers)
response.encoding = "utf-8"
# 获取字符串
print(type(response.text))
# 获取字节流
print(type(response.content))
# 返回服务器响应码
print(response.status_code)
# 返回数据的URL
print(respone.url)

      3、response.encoding 
        一般返回 ：ISO-8859-1
		response.encoding = "utf-8"
      4、response.status_code ：返回服务器响应码
      5、response.url ：返回数据的URL地址
    3、get()使用场景
      1、没有查询参数
        res = requests.get(url,headers=headers)
      2、有查询参数: params={}
        注 ：params参数必须为字典,自动进行编码
		见 ：09_requests.get.params.py

#09_requests.get.params.py
import requests

headers = {"User-Agent":"Mozilla/5.0"}
url = "http://www.baidu.com/s?"
key = input("请输入要搜索的内容:")
params = {"wd":key}

# 自动编码,自动拼接URL,params必须为字典
res = requests.get(url,params=params,headers=headers)
# 指定utf-8
res.encoding = "utf-8"
print(res.text)

    4、post() 参数名 ：data
      1、data = {}
      2、示例 ：10_有道翻译post.py

#有道翻译post.py
import requests
import json

# 请输入你要翻译的内容
key = input("请输入要翻译的内容:")
# post方法要求data为字典格式
data = {"i": key,
        "from":"AUTO",
        "to":"AUTO",
        "smartresult":"dict",
        "client":"fanyideskweb",
        "salt":"1540373170893",
        "sign":"a5d9b838efd03c9b383dc1dccb742038",
        "doctype":"json",
        "version":"2.1",
        "keyfrom":"fanyi.web",
        "action":"FY_BY_REALTIME",
        "typoResult":"false"
    }

# 发请求,获取响应
# url为POST的地址,抓包工具抓到的,此处去掉 _o
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
headers = {"User-Agent":"Mozilla/5.0"}
# 此处data为form表单数据
res = requests.post(url,data=data,headers=headers)
res.encoding = "utf-8"
html = res.text
# 把json格式字符串转换为Python中字典
r_dict = json.loads(html)
result = r_dict['translateResult'][0][0]["tgt"]
print(result)

#把翻译后的结果输出来
# 请输入要翻译的内容 ：你好
# hello

#{'type': 'ZH_CN2EN', 
# 'errorCode': 0, 
# 'elapsedTime': 7, 
# 'translateResult': 
# [[{'src': '风云', 'tgt': 'Occasion'}]]
#}

#示例：
#cookie模拟登陆人人网
import urllib.request

url = "http://www.renren.com/967469305/profile"
headers = {
        "Host":"www.renren.com",
        "Connection":"keep-alive",
        "Upgrade-Insecure-Requests":"1",
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Referer":"http://www.renren.com/",
#        Accept-Encoding: gzip, deflate
        "Accept-Language":"zh-CN,zh;q=0.9",
        "Cookie":"anonymid=jnoaljpk7d3nh2; depovince=BJ; _r01_=1; _de=4DBCFCC17D9E50C8C92BCDC45CC5C3B7; ln_uact=13603263409; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; jebe_key=1b1f4a34-0468-4185-a3b0-6f2c38abc368%7C2012cb2155debcd0710a4bf5a73220e8%7C1540454149943%7C1%7C1540454153787; wp_fold=0; wp=0; jebecookies=2fc339e7-1b51-43ce-bc85-e2dc1f68ee16|||||; JSESSIONID=abcANrnqoMuLshY34pQAw; ick_login=30d0bd58-f6bb-437f-8d0d-6a72ae00e7b7; p=1e1b85cb8dda387a70e400a341c2e9c95; first_login_flag=1; t=4f652cc0a8f3fd50f5c9095c92d4717d5; societyguester=4f652cc0a8f3fd50f5c9095c92d4717d5; id=967469305; xnsid=55bff2d5; loginfrom=syshome"
    }

req = urllib.request.Request(url,headers=headers)
res = urllib.request.urlopen(req)
print(res.read().decode("utf-8"))

#示例：
#猫眼电影top100抓取
import urllib.request
import re
import csv

class MaoyanSpider:
    def __init__(self):
        self.baseurl = "http://maoyan.com/board/4?offset="
        self.headers = {"User-Agent":"Mozilla/5.0"}
        self.page = 1
        self.offset = 0
        
    # 下载页面
    def loadPage(self,url):
        req = urllib.request.Request(url,headers=self.headers)
        res = urllib.request.urlopen(req)
        html = res.read().decode("utf-8")
        self.parsePage(html)
        
    # 解析页面
    def parsePage(self,html):
        p = re.compile('<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>',re.S)
        r_list = p.findall(html)
#        print(r_list)
        # [("霸王别姬","张国荣","1994-01-01"),(),()...]
        self.writePage(r_list)
    
    def writePage(self,r_list):
        if self.page == 1:
            with open("猫眼电影.csv","a",newline="") as f:
                writer = csv.writer(f)
                writer.writerow(["电影名称","主演","上映时间"])
        for r_tuple in r_list:
            with open("猫眼电影.csv","a",newline="") as f:
                # 创建写入对象
                writer = csv.writer(f)
#                L = list(r_tuple)
                L = [r_tuple[0].strip(),r_tuple[1].strip(),r_tuple[2].strip()]
                # ["霸王别姬","张国荣","1994-01-01"]
                writer.writerow(L)
    
    def workOn(self):
        while True:
            c = input("爬取请按y(y/n):")
            if c.strip().lower() == "y":
                self.offset = (self.page-1)*10
                url = self.baseurl + str(self.offset)
                self.loadPage(url)
                self.page += 1
            else:
                print("爬取结束,谢谢使用!")
                break
                
if __name__ == "__main__":
    spider = MaoyanSpider()
    spider.workOn()

#示例：
#内涵吧信息抓取
import urllib.request
import re

class NeihanSpider:
    def __init__(self):
        self.baseurl = "https://www.neihan8.com/njjzw/"
        self.headers = {"User-Agent":"Mozilla/5.0"}
        self.page = 1
        
    # 下载页面
    def loadPage(self,url):
        req = urllib.request.Request(url,headers=self.headers)
        res = urllib.request.urlopen(req)
        html = res.read().decode("utf-8")
        self.parsePage(html)
        
    # 解析页面
    def parsePage(self,html):
        p = re.compile('<div class="text-.*?title="(.*?)".*?<div class="desc">(.*?)</div>',re.S)
        r_list = p.findall(html)
        # [("什么动物...","海豹"),(),()...]
        self.writePage(r_list)
        
    # 保存页面
    def writePage(self,r_list):
        for r_tuple in r_list:
            for r_str in r_tuple:
                with open("急转弯.txt","a",encoding="gb18030") as f:
                    f.write(r_str.strip() + "\n")
            with open("急转弯.txt","a",encoding="gb18030") as f:
                f.write("\n")
        
    def workOn(self):
        self.loadPage(self.baseurl)
        while True:
            c = input("成功,是否继续(y/n):")
            if c.strip().lower() == "y":
                self.page += 1
                url = self.baseurl + "index_" +\
                      str(self.page) + ".html"
                self.loadPage(url)
            else:
                print("爬取结束,谢谢使用!")
                break
                
if __name__ == "__main__":
    spider = NeihanSpider()
    spider.workOn()

phoenix_main

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
python爬虫个人文档整理

之前一直在做web开发，最近根据公司需要再次搞起了爬虫，虽然之前搞过，可是许多东西都忘得东东西西，敲起键盘来也是特别费劲，影响开发效率。今天周末，So特来整理一下。其实我不太喜欢写博客的，可是不写的话，又有不太好的地方，不是记不住什么，而是许多公司看重这个，虽然我觉得技术牛的永远是技术牛的，小白也会慢慢的成长。同时作为一个程序员，总要为这个社会发点实用的干货，方便我们一起共同成长，毕竟闭门造车的生...
复制链接

扫一扫

专栏目录