爬虫
ithicker
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网页爬虫开发基础实验
1.掌握使用Request库生成GET请求、Request库上传请求头中的User-Agent(信息),Request库查看返回的响应头、Request库查看返回的状态码、以及Request库和chardet库识别返回的页面内容编码,并正确显示页面内容。 2.掌握Xpath的语法知识、etree模块的使用方法以及在动态网页种直接获取Xpath路径方法。 3.掌握使用Beautiful Soup库搜索文档树中的节点,掌握使用Beautiful Soup库提取搜索到的节点中的文本内容。 4.掌握综合运用Requ原创 2023-02-05 23:50:37 · 423 阅读 · 0 评论 -
起点中文网 字体反爬技术 网页可以显示数字字母 网页代码是乱码或空格
我接过一段代码 # -*- coding: utf-8 -*- """ Created on Tue Mar 23 14:38:01 2021 @author: xinyi """ import xlwt import requests from lxml import etree import time all_info_list = [] def get_info(url): html = requests.get(url) selector = etree.HTML(html.原创 2022-03-23 20:50:50 · 951 阅读 · 2 评论
分享