响应头中content-type常用的类型有哪些?
1、文本类型 text/plain
2、html类型 text/html
3、css类型 text/css
4、js类型 application/x-javascript
5、json类型 application/json
6、图片类型 image/png image/jpg .....
F12 ->源代码:要先打开至网页再F12才有内容.
从源代码截取某标签的某个属性
html = requests.get('https://pvp.qq.com/web201605/herolist.shtml').content
doc= PyQuery(html) #解析源代码
tiems = doc('.herolist > li ').items() #从源代码中抽取li标签
#<li><a href="herodetail/506.shtml" target="_blank">
#<img src="//game.gtimg.cn/images/yxzj/img201606/heroimg/506/506.jpg" width="91" height="91" alt="云中君"/>云中君</a></li>
for tie in tiems:
url0 = tie.find('img') #截取img标签
url =url0.attr('src') #获取img标签的src属性,这里就是地址
源代码 .text:是现成的字符串,.content:还要编码,
但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。
数据关键词搜索不到时:
第1步: 确定是不是静态页面加密:在元素定位里复制元素标签的属性,然后在源代码中查找此属性,如果还没有,就不是静态加密。进行第2步
第2步: 数据加密了。