爬虫学习
文章平均质量分 88
时之彼岸Φ
不积跬步,无以至千里。
展开
-
爬虫学习:XPath提取网页数据
上文初步了解了XPath的语法,这里介绍一个技巧,无需我们自己写XPath,使用浏览器自带工具即可,自动生成XPath。XPath是一种在XML文档中查找信息的语言,可以使用它在HTML源代码文档中通过元素、属性等方式进行查找和提取数据。获取标签属性值使用@属性名,以下案例获取了属性title值:@title。实例一:根据class属性进行匹配。实例三:根据name属性进行匹配。例:/div选取根元素div。例:XPath的常用语法格式。实例二:根据id属性进行匹配。选取此元素的所有子元素。原创 2024-05-07 23:52:06 · 611 阅读 · 0 评论 -
爬虫学习:基本网络请求库的使用
res = resquests.get(url,**kwargs)或res = resquests.post(url,**kwargs)# headers:指定发起的HTTP请求的头部信息,此为字典,还可以add_header()添加。# method:发起HTTP请求方式,有GET,POST,DELETE,PUT等。例:params = {'keyword': 'python', 'page': '1'}例:fs={'files':open('data.txt','rb'}原创 2024-05-01 15:51:31 · 1364 阅读 · 0 评论