爬虫
羊城迷鹿
你相信魔法吗?
展开
-
使用爬虫批量下载图片链接并去重
【代码】使用爬虫批量下载图片链接并去重。原创 2023-09-20 14:02:39 · 1652 阅读 · 0 评论 -
python 分割开md文档
动机起因主要是之前在一篇石墨文档上集中分享了很多论文,现在想把它们都下载下来,并按文章标题分割成多个子markdown文件在本地原来是这样的:执行完是这样的代码首先把石墨文档以markdown形式导出到本地然后编写以下代码,被注释掉的部分是把石墨文档里的base64图片替换为图床的URL,这里略去省得被封import requestsfrom os.path import basenameimport reimport osimport base64from selenium i原创 2021-09-13 11:02:02 · 867 阅读 · 0 评论 -
使用python无线控制手机计算器
文章目录安装Appium-Python-Client安装Appium-Python-Client原创 2020-08-09 13:10:12 · 1099 阅读 · 0 评论 -
Appium的安装与使用(以hw p30真机为例)
文章目录下载jdk并设置环境变量下载Android Studio并设置环境变量下载Appium的最新版本并安装将手机设为调试模式并获取安卓版本信息使用adb命令获取包信息启动下载jdk并设置环境变量jdk下载网址环境变量配置特别注意:验证环境变量配置是否成功下载Android Studio并设置环境变量这里就不详细说了,主要是为了得到sdk。最终的环境变量配置情况系统变量里面新建的变量系统变量中的Path部分新增的变量下载Appium的最新版本并安装安装地址将手机原创 2020-08-08 17:33:21 · 383 阅读 · 0 评论 -
从零开始打造代理池
文章目录引入包存储模块获取模块将获取代理与存储代理相结合检测模块显示模块效果引入包import pymysqlfrom random import choicefrom warnings import filterwarningsimport traceback import requestsfrom bs4 import BeautifulSoupimport aiohttpimport asyncioimport time# 针对ipython不支持的情况import nest原创 2020-06-09 01:12:51 · 246 阅读 · 0 评论 -
基于anaconda下的环境将py文件打包成exe
文章目录方法一激活对应环境在该环境下安装pyinstaller进入py文件所在的目录解决报错方法二方法一激活对应环境在该环境下安装pyinstaller进入py文件所在的目录解决报错第一次尝试打包出现如下错误卸载出错包即可解决成功打包方法二该方法适用于未在anaconda环境中安装pyinstaller,而想在系统中使用pyinstaller时依赖于a...原创 2020-05-03 11:31:48 · 2824 阅读 · 0 评论 -
Selenium 爬取京东商品信息并分页保存
文章目录引入包按url获取页面信息模拟点击获取页面信息分析页面信息查询函数引入包from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support imp...原创 2020-04-19 14:09:36 · 924 阅读 · 4 评论 -
极速冲上selenium的快车
引入包from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom sel...原创 2020-04-11 13:06:06 · 201 阅读 · 0 评论 -
使用ajax爬取今日头条街拍图片
分析请求可以发现以?aid开头的链接包含了内容信息拖动页面,获得连续的?aid信息https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=tr...原创 2020-02-25 22:18:19 · 1504 阅读 · 0 评论 -
使用ajax爬取微博
分析请求Chrome浏览器点击我的微博首页之后,右键检查→手机模式→刷新之后url变成https://m.weibo.cn/p... →network→XHR筛选依次对不同类型的内容进行预览以home开头的请求:空白框架,无实质内容以config开头的请求:用于校验以getIndex开头的请求:如果请求的url中containerid=100505+id,则内容是网...原创 2020-02-25 00:05:56 · 1314 阅读 · 0 评论 -
不畏网页遮望眼,只为我有bf4
爬取原始内容import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}...原创 2020-02-16 22:48:28 · 545 阅读 · 0 评论 -
request的基本用法
GET请求常规请求import requestsr = requests.get('http://httpbin.org/get')print(r.text){ "args": {}, "headers": { "Accept": "*/*", "Host": "httpbin.org", "User-Agent": "python-request...原创 2020-02-09 20:47:21 · 1005 阅读 · 0 评论 -
URL库的其他用法
解析与还原链接from urllib.parse import urlparseresult = urlparse('http://www.iplant.cn/info/Dendranthema%20morifolium?t=z')print(type(result), result)<class 'urllib.parse.ParseResult'> ParseResult...原创 2020-02-05 10:51:21 · 759 阅读 · 0 评论 -
request类的各种ERROR
URLerrorURLError类继承自OSError类,是urllib库的error模块的基类,由request操作产生的异常都可以通过捕获该类来处理。它具有一个属性reason,即返回错误的原因。打开一个不存在的页面from urllib.request import *from urllib.error import *try: response = urlopen('...原创 2020-01-10 23:29:24 · 10105 阅读 · 0 评论 -
用request抓取网页内容:常规、代理与cookie
传送数据urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False, context=None)from urllib.request import *import urllib.parsedata = bytes(urllib.parse.urlencode({'word':'hello...原创 2019-12-19 15:40:07 · 609 阅读 · 0 评论 -
自从会了爬虫妈妈再也不担心我不会植物分类啦
代码# -*- coding: UTF-8 -*-import urllibimport urllib2import rename = str(raw_input('请输入物种名:'))values={}values['id'] = namedata = urllib.urlencode(values)url = "http://frps.iplant.cn/frps"getu...原创 2019-09-02 10:58:28 · 235 阅读 · 0 评论