pycharm中批量添加单引号
1.快捷键【Ctrl+R】调出正则,然后点击
2.第一行输入【(.?): (.?)\n】
3.第二行输入【(.?): (.?)\n】
3.快捷键【Shift+Tab】,左对齐
4.选择【Replace All】
实战1.爬取搜狗指定词条对应的搜索结果页面
基于requests模块的get请求
# 爬取搜狗指定词条对应的搜索结果页面
#UA User-Agent:请求载体的身份标识
#UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常请求。
#但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(即爬虫),则服务器端可能拒绝该次请求。
#UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器
import requests
if __name__ == "__main__":
#UA伪装:将对应的User-Agent封装到字典中
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
url = "https://www.sogou.com/web"
#处理url携带的参数:装到字典中
kw = input('enter a word:')
param = {
'query':kw
}
#对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url,params=param,headers=headers)
page_text = response.text
filename = kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(filename,'保存成功!!!')
实战2.爬取百度翻译
**1.post请求(携带参数)
2.响应数据是一组JSON数据,查看content-Type的类型是application/json,**也可以查看Response中的数据类型{‘errno’: 0, ‘data’: [{‘k’: ‘dog’, ‘v’: ‘n. 狗; 蹩脚货; 丑女人; 卑鄙小人 v. 困扰; 跟踪’}, {‘k’: ‘DOG’, ‘v’: ‘abbr. Data Output Gate 数据输出门’}, {‘k’: ‘doge’, ‘v’: ‘n. 共和国总督’}, {‘k’: ‘dogm’, ‘v’: ‘abbr. dogmatic 教条的; 独断的; dogmatism 教条主义; dogmatist’}, {‘k’: ‘Dogo’, ‘v’: ‘[地名] [马里、尼日尔、乍得] 多戈; [地名] [韩国] 道高’}]}
基于requests模块的post请求
# 爬取百度翻译
import requests
import json
if __name__ == "__main__":
#1.指定URL
post_url = 'https://fanyi.baidu.com/sug'
#2.UA伪装
#请求之前指定UA伪装,在之后的指定url之后,就进行UA伪装
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
#3.post请求参数处理(同get请求一致)
word = input('enter a word:')
data = {
'kw':word
}
#4.url请求发送
response = requests.post(post_url,data)
# requests.post(url,data,json,kw) data:是一个字典类型的数据,封装了url所携带的参数
#获取响应数据:json()方法返回的是obj 【如果确认响应数据是json类型,才可以使用json()方法】
dic_obj = response.json()
print(dic_obj)
#5.持久化存储
filename = word+'.json'
fp = open(filename,'w',encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False) #json.dump()将python数据结构的文件转换为JSON串 获取的JSON串是中文,因此不可以使用ASC码进行编码
print('数据爬取成功!!!')
实战3.爬取豆瓣电影分类排行榜https://movie.douban.com/中电影详情数据
基于request模块ajax的get请求
# 爬取豆瓣电影分类排行榜https://movie.douban.com/中电影详情数据
import json
import requests
if __name__ == "__main__":
url = 'https://movie.douban.com/j/chart/top_list'
param = {
'type':'7',
'interval_id':'100:90',
'action':'',
'start':'0',#从库中的第几部电影取出
'limit':'20', #一次取出的个数
}
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
response = requests.get(url=url,params=param,headers=headers)
list_data = response.json() #在网页中查看Response,其中数据类型使用的是中括号[],因此是列表
fp = open('./douban.json','w',encoding='utf-8')
json.dump(list_data,fp=fp,ensure_ascii=False)
print('爬取成功!!!')
实战4.爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅
基于requests模块ajax的post请求
# 爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅
# 基于requests模块ajax的post请求
import requests
if __name__ == "__main__":
post_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
data = {
'cname':'',
'pid':'',
'keyword': '北京',
'pageIndex': '1',
'pageSize': '10',
}
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
response = requests.post(url=post_url,data=data)
page_text =response.text
with open('./kfc.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('抓取成功!!!')
实战5.爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据【 http://scxk.nmpa.gov.cn:81/xk/】
综合练习
# 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据
import requests
import json
if __name__ =="__main__":
#批量获取ID
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
data = {
'on': 'true',
'page': '1',
'pageSize': '15',
'productName':'',
'conditionType': '1',
'applyname':'',
'applysn':'',
}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
id_list = [] #存储企业的id
all_data_list = [] #存储所有的企业详情数据
json_id = requests.post(url=url,headers=headers,data=data)
json_ids = json_id.json()
for dic in json_ids['list']:
id_list.append(dic['ID'])
print(id_list)
#获取企业详情数据
post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
for id in id_list:
data = {
'id':id
}
detail_data = requests.post(url=post_url,headers=headers,data=data).json()
print(detail_data)
print('抓取成功!!!')