爬虫的进阶——xpinyin,requests_html

本文介绍了Python爬虫中的两个实用库:xpinyin和requests_html。xpinyin模块用于处理汉字拼音,特别是在处理含有关键词拼音的网址时发挥作用。requests_html则因其自带UA和自动utf-8编码而具有优势。此外,文章还详细讲解了json的使用,包括数据格式转换、获取网页数据以及jsonpath的操作。最后,文章提到了re正则表达式的应用,如re.findall和re.compile。
摘要由CSDN通过智能技术生成

一、xpinyin模块的使用

1.为什么使用xpinyin模块

  • 当我们让爬虫程序去访问大量的不同的网站时,有时会遇到搜索的关键词的拼音就在网址里,这就需要我们自动地去识别程序
  • 举个例子就是某图网

2.xpinyin 了解

import requests  # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()

# 得到汉字的拼音,一般来说使用-隔开
print(p.get_pinyin("长沙"))
# 得到汉字的多个拼音,也就是多音字
print(p.get_pinyins("厦门"))

# 得到汉字的拼音,并且没有分割
print(p.get_pinyins("厦门",""))
# 得到一个汉字的首字母
print(p.get_initial("常"))
# 得到多个汉子的首字母,并且不分割
print(p.get_initials("沙门", ""))

3.xpinyin的使用

在某图网之中,有些汉字的拼音并不能直接的通过拼音来获取网址,而是通过https://699pic.com/search/getKwInfo?kw=三个 来得到如下的内容

{"status":"ok","message":"\u64cd\u4f5c\u6210\u529f","data":{"kwid":"290225","pinyin":"sange"}}
  • 注意:response.text获得的类型是字符串的类型,如果需要将上面的字符串转化为字典的话,则需要转化为json这一步
import requests  # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()
headers = {
   
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"
}
keyword = input("请输入你想搜索的图片")
response_url = f"https://699pic.com/search/getKwInfo?kw={keyword}"
response1=requests.get(url=response_url,headers=headers)
print(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Indra_ran

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值