一、xpinyin模块的使用
1.为什么使用xpinyin模块
- 当我们让爬虫程序去访问大量的不同的网站时,有时会遇到搜索的关键词的拼音就在网址里,这就需要我们自动地去识别程序
- 举个例子就是某图网
2.xpinyin 了解
import requests # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()
# 得到汉字的拼音,一般来说使用-隔开
print(p.get_pinyin("长沙"))
# 得到汉字的多个拼音,也就是多音字
print(p.get_pinyins("厦门"))
# 得到汉字的拼音,并且没有分割
print(p.get_pinyins("厦门",""))
# 得到一个汉字的首字母
print(p.get_initial("常"))
# 得到多个汉子的首字母,并且不分割
print(p.get_initials("沙门", ""))
3.xpinyin的使用
在某图网之中,有些汉字的拼音并不能直接的通过拼音来获取网址,而是通过https://699pic.com/search/getKwInfo?kw=三个 来得到如下的内容
{"status":"ok","message":"\u64cd\u4f5c\u6210\u529f","data":{"kwid":"290225","pinyin":"sange"}}
- 注意:response.text获得的类型是字符串的类型,如果需要将上面的字符串转化为字典的话,则需要转化为json这一步
import requests # 导入请求包
from retrying import retry
from xpinyin import Pinyin
# 实例化一个xpinyin的对象
p = Pinyin()
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"
}
keyword = input("请输入你想搜索的图片")
response_url = f"https://699pic.com/search/getKwInfo?kw={keyword}"
response1=requests.get(url=response_url,headers=headers)
print(