Python爬虫学习
文章平均质量分 55
INGg__
双非ACM打铁选手,数据科学与大数据专业在读
展开
-
python58同城二手房爬取 xpath练习
这大公司的大网站果然这反爬都太厉害了呜呜这篇文章是xpath的练习项目调了我3个小时,有很多技巧还是不会,比如是不是有直接获取这个标签下的所有标签,就不需要用嵌套try...except来碰到错误停止了;是不是能把所要检索的html通过标签单独挑出来来减少检索的时间,导致代码运行有点慢import pprintimport reimport osimport timeimport requestsfrom lxml import etree"""这篇文章是xpath的练习项目调了原创 2021-09-11 22:42:44 · 367 阅读 · 2 评论 -
爬虫学习之XPath使用
学习blog:https://cuiqingcai.com/5545.html使用XPath概览即XML路径语言,是一门在XML文档中查找信息的语言,最初是用来搜寻XML文档的常用规则表达式描述nodename选取此节点的所有节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性实例from lxml import etreetext = '''<div> .转载 2021-08-09 12:06:56 · 112 阅读 · 0 评论 -
CF1471B 性质总结题
题目描述您将一个长度为 nn 的数组 aa 和一个整数 xx 给了机器人。机器人的操作将会遵循以下原则:对于数组的元素进行迭代,当前的元素为 qq。如果 qq 被 xx 整除,那么机器人会将 xx 个整数 \frac{q}{x}x**q 添加到数组的末尾,然后移到下一个元素。否则,机器人停止工作。请在机器人停止工作时确定数组所有值的总和。输入格式第一行包含一个整数 t(1\le t\le100)t(1≤t≤100) 输入数据的组数。接下来对于每组数据包含一个整数 n,x(1\le n\le 10.转载 2021-06-08 22:59:39 · 86 阅读 · 0 评论 -
Python爬虫实战之阳光高考专业库爬取
直接贴代码了,这不是库的教程,我直接贴代码了吐槽一下,这网页的源码写的让我调的真难受import requestsimport reimport timedef get_html(url): headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36原创 2021-06-07 18:02:33 · 1485 阅读 · 4 评论 -
Python爬虫库之selenium使用
安装安装google浏览器,以及对应版本的驱动器chormeDriver,配置环境变量下载:https://chromedriver.chromium.org/security-considerations推荐讲driver复制到chorme所在文件目录安装库安装无头浏览器https://blog.csdn.net/weixin_42657078/article/details/81544624Chrome无头from selenium.webdriver.chrome.opt原创 2021-06-06 00:00:01 · 172 阅读 · 1 评论