爬虫
爬虫代码,仅供学习参考
JHC000000
这个作者很懒,什么都没留下…
展开
-
懂车帝,推荐数据抓取
【代码】懂车帝,推荐数据抓取。原创 2024-01-27 21:36:36 · 70 阅读 · 0 评论 -
python 根据m3u8,下载ts,聚合成mp4
视频下载原创 2023-04-08 23:45:06 · 213 阅读 · 1 评论 -
头条搜索 ttwid参数持续生成
搜索关键词:https://ttwid.bytedance.com原创 2024-01-22 11:25:04 · 243 阅读 · 0 评论 -
URP高校教务管理系统登录过程解析
【代码】URP高校教务管理系统登录过程解析。原创 2023-12-12 17:37:49 · 492 阅读 · 0 评论 -
Python监控Iphone 手机余量
【代码】Python监控Iphone 手机余量。原创 2023-11-29 22:50:56 · 388 阅读 · 0 评论 -
Python Google 图像搜索结果原图抓取
【代码】Python Google 图像搜索结果原图抓取。原创 2023-11-29 21:06:53 · 380 阅读 · 0 评论 -
Python豆瓣电影搜索抓取
【代码】Python豆瓣电影搜索抓取。原创 2023-11-29 21:05:19 · 386 阅读 · 0 评论 -
搞定--智慧树登陆滑块
搞定--智慧树登陆滑块原创 2023-08-28 18:39:32 · 126 阅读 · 0 评论 -
百度文心一言测试版接口分析
【代码】百度文心一言测试版接口分析。原创 2023-08-22 11:15:51 · 479 阅读 · 0 评论 -
Wechat 评论数据自动化采集
【代码】Wechat文章评论数据抓取。原创 2023-06-21 17:12:16 · 39 阅读 · 0 评论 -
快速封禁大法--东方日报JS解密过程
3. hd参数破解:(最费劲的,看不懂也懒得看,直接全粘过来了),翻页过程中会加载handle.js文件,负责加密大的函数是 function h2381766(_0x246303, _0x56cc70, _0x3bf5ca, _0x4f4675 ,_0x25f5d7),经过调试得到五个参数内容如函数get_hd() 所示。4. 解析结果,返回是jquery数据,正则表达式解析下即可,其中callback携带的参数即是接口返回时前边携带的参数,详见get_page() 函数。原创 2023-08-27 21:58:41 · 199 阅读 · 0 评论 -
人民日报--全站图文数据库信息采集
支持2020-2023所有数据采集。原创 2023-08-28 14:34:15 · 166 阅读 · 0 评论 -
中国日报网--搜索结果数据采集
支持所有搜索结果内容提取。原创 2023-08-28 15:15:00 · 59 阅读 · 0 评论 -
井冈山大学--继续教育平台 全功能版
井冈山大学继续教育平台 视频+作业+问答 全满分原创 2023-06-05 23:39:00 · 110 阅读 · 0 评论 -
前端禁用调试后,强制唤出调试窗口方式
前端禁用调试后,强制唤出调试窗口方式原创 2023-05-14 00:26:47 · 243 阅读 · 0 评论 -
百度系接口分析
接口分析原创 2023-02-27 12:13:52 · 182 阅读 · 0 评论 -
打码工具V1.0
人工打码工具原创 2022-11-16 14:17:16 · 161 阅读 · 0 评论 -
Twitter 热门搜索结果文本抓取
Twitter spider原创 2022-11-16 14:14:30 · 629 阅读 · 0 评论 -
python 从百度首页获取当前的网络时间
获取网络时间原创 2022-10-13 18:41:15 · 841 阅读 · 0 评论 -
微博--图片,视频,评论抓取
把微博扒了个底掉原创 2022-10-11 18:21:51 · 622 阅读 · 0 评论 -
Python 疫情数据可视化_pyecharts
pyecharts原创 2022-10-08 11:18:28 · 244 阅读 · 0 评论 -
Python 破解 MD5 暗号
Python 破解 MD5 暗号原创 2022-09-13 16:31:33 · 1441 阅读 · 0 评论 -
Python requests响应数据乱码问题处理
爬虫乱码原创 2022-09-09 16:08:59 · 779 阅读 · 0 评论 -
微博主页图片爬取
python 爬取微博主页图片原创 2022-07-11 18:21:29 · 446 阅读 · 0 评论 -
向word中写入带颜色的文字
#!/usr/bin/env python# encoding: utf-8'''@author: JHC@license: None@contact: [email protected]@file: 生成高亮答案提示文件.py@time: 2022/4/24 15:02@desc:'''import pymysqlfrom docx import Documentfrom docx.shared import RGBColorhost = 'localhost'port原创 2022-04-25 10:17:57 · 246 阅读 · 0 评论 -
“知道”题库脚本——升级版
#!/usr/bin/env python# encoding: utf-8'''@author: JHC@license: None@contact: [email protected]@file: ttt.py@time: 2022/4/22 23:27@desc:替换self.uuid就能把题和答案写入mysql数据库 uuid在cookies里'''import jsonimport requestsimport pymysql.cursorsimport sys原创 2022-04-22 23:38:29 · 5477 阅读 · 3 评论 -
selenium chrome webdriver 无头浏览器配置
粘吧粘吧,改两个配置路径就能用:executable_pathuser-data-dirdef spider(url,name,city): # 浏览器驱动地址,高版本的浏览器驱动必须指定路径才好使 executable_path = r"C:\Users\JHC\Desktop\paint_cv\Boss_Spider\chromedriver.exe" os.environ["webdriver.chrome.driver"] = executable_path #原创 2022-04-15 15:42:05 · 1867 阅读 · 0 评论 -
python 线程池 爬取词典网历史人物词库
'''python 词典网历史人物词库 线程池 爬取https://search.cidianwang.com/待处理人名文件下载地址:https://jhc001.lanzouw.com/iYkEqwj0o9e 密码:b0dh'''#coding=utf-8#coding=gbkfrom concurrent.futures import ThreadPoolExecutorimport requests,os,re,asyncio,timeimport threadpoo原创 2021-11-15 16:28:34 · 840 阅读 · 0 评论 -
Boss直聘数据爬取,词云图绘制
'''BOSS爬虫,boss.py'''from pymongo import *import requestsfrom lxml import etreeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}# 添加自己的cookiescookie原创 2021-10-28 16:03:27 · 577 阅读 · 0 评论 -
国学大师词库爬虫
代查词汇下载地址:https://jhc001.lanzouw.com/iWAtlwcuixa密码:bxp6爬虫代码:#coding=utf-8#coding=gbkimport requestsfrom lxml import etreeimport osdef spider(name): try: response=requests.get('http://www.guoxuedashi.net/zidian/so.php?sokeyci='+name+.原创 2021-11-10 16:04:05 · 536 阅读 · 0 评论