- 博客(18)
- 资源 (6)
- 收藏
- 关注
原创 案例: USNews 世界大学榜单 Python selenium 实践
如果你是新手,通过阅读此案例,可以参考解决的问题及习得的技巧:selenium:1、判断元素是否存在2、懒加载,控制台执行js,页面滑动最下方3、按钮因遮挡导致不可点击时,强制点击4、隐藏 自动化测试标签 和 静默执行5、获取当前加载页面的源码pandas:1、保存excel时 不替换原有文件,新增sheet保存2、DataFrame 添加字典数据时,默认列名字典顺序排序,保存加columns固定顺序css: 类名存在空格时,用 .代替空格print: 打印...
2022-02-25 12:04:35 1076
原创 多年Excel使用经验汇总
index+match | vlookup | lookup 使用整合index函数index(范围,行,列)index函数是在指定的区域取数据,一共有3个参数,如果区域只有一列,第三个参数可以省略。match函数match(查询条件,查询域,查询方式)match函数则是定位数据的位置,定位行或列。第三个参数用0表示精确查找。index+match 联合用index+match来...
2020-12-10 21:13:40 380
转载 chrome无头浏览器的几种检测与绕过方式 (爬虫与反爬虫)
转自:https://blog.csdn.net/Revivedsun/article/details/81785000原文链接:https://intoli.com/blog/not-possible-to-block-chrome-headless/本文测试使用的chrome版本为Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) A...
2019-05-23 18:25:49 9921
原创 微信公众号刷票思路 Python
记一次微信公众号批量投票,主要记录思路,具体的公众号已打码。主线思路:1.分析投票所需数据(判断 是通过ip 还是 需要注册账号后才可以进行投票)2.批量注册第三方平台的账号(若拥有大量可用微信号,则可用微信号直接替代此步)3.利用已注册的账号进行遍历,随机投票,每日循环。实施步骤:1.使用 mitmproxy 监测投票过程(亦可用fiddler进行抓包),分...
2019-04-29 18:39:42 24310 13
原创 【itchat】基于web端微信 的微信个人号接口
前言:itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。使用不到三十行的代码,你就可以完成一个能够处理所有信息的微信机器人。当然,该api的使用远不止一个机器人,更多的功能等着你来发现,比如这些。该接口与公众号接口itchatmp共享类似的操作方式,学习一次掌握两个工具。如今微信已经成为了个人社交的很大一部分,希望这个项目能够帮助你扩展你的个人的微...
2019-03-17 19:18:15 1935 1
原创 练习:将图片版PDF(不可复制)通过OCR转换为可编辑的PDF
一 背景 今天有朋友咨询这个问题,于是在网上搜索了一番,很多方案都是在linux、mac下的,好在找到了windos的,借鉴了博主nightttt7的思路、源码,整合出了一个可用的程序,相关博主在最下方给出。二 实现思路 将原PDF文件 切割为多张 单页图片,利用OCR逐页扫描单页图片获得文本信息,将识别的文本信息输出为新的PDF。最终结果的优劣大程度...
2019-03-15 15:48:23 3393 3
原创 爬虫实例3:Python实时爬取新浪热搜榜
因为了解到新浪热搜榜每分钟都会更新,所以写的是每分钟爬取一次的死循环,按照日期为格式创建路径,将 爬取的信息按照时间顺序 输出到excel。步骤:1、在浏览器中,用F12分析热搜榜页面的html标签结构,观察有无分页情况、分页规律。2、分为 url、html解析、输出 三大模块进行编写方法: url: 因为本案例中 url为固定静态页,且无分页,所以直...
2019-03-14 14:23:16 3716 2
原创 【Auto.js 】Android 脚本软件 简要介绍及学习资料
背景: 前几天研究抖音视频爬取的时候,看到有篇文章提到了Auto.js,搜完之后觉得比较有意思,就看着api学了几天,写了几个自用的小脚本。很好上手,如果稍掌握一点js,将会很快可以写好并付诸使用。下文会予以简要介绍,并有部分学习资料便于快速上手。介绍: Auto.js是一款安卓应用(下载地址<已失效>),针对安卓7.0以上机型,它可以无需...
2019-03-12 17:47:18 13811
原创 爬虫实例2:Python学习文章爬取
发现了一个教Python大佬的网站:https://cuiqingcai.com/category/technique,于是利用从上面学的知识,把这个网站 技术杂谈栏目下的文章爬了一下...主要使用的模块:requests、 BeautifulSoup、 Workbook.openpyxl、 time源码:from openpyxl import Workbookf...
2019-03-08 11:40:55 448
原创 爬虫实例1:2018中国最富1000人名单及信息(table格式)
前两天正好看到这个新闻,顺手就爬一下,用的re正则表达式爬的,用BeautifulSoup会更省力一些所需爬取链接:http://finance.sina.com.cn/zt_d/jmzf2018/网页为静态页面,为表结构,不需要翻页,较简单使用到的模块:re # 正则urllib.request # 亦可用request模块,今天看了urllib就正好用了ope...
2019-03-07 00:56:23 580
原创 Python练习:炉石传说荣誉室返尘最优策略
一 背景 炉石2019年荣誉室的消息公布后,很多人都在问荣誉室最优选择策略的问题。刚学了Python的基本语法,想试试手。因为对列表、字典这些基础类型的方法不太熟悉,写的时候遇到了好多问题,好在解决了大部分,目前所写的不是很健全,程序逻辑上有漏洞。如果有意向学习Python,可以自己动手写写这类项目,提高效果还是比较明显的。二 最优选择策略分析2.1 基础规则解释返尘规则...
2019-03-06 02:20:54 592
原创 练习:抓取豆瓣电影Top250
一 背景 今天在github上看到的小项目,跑了一下可以跑通,于是当做练习题,参照源码学习三方模块与爬取思路,重新编译,源码见最下方。二 使用模块 使用的核心模块:requests、BeautifulSoup、openpyxlrequests (请求头,模拟浏览器访问) .get(url,headers=?).contentre (正则表达...
2019-03-02 20:37:01 579 1
原创 目标1:网络爬虫
一 学习计划 自己本身是计算机专业,虽然没有从事开发方面的工作,但有一定语言基础。 在本次目标中,主要参考 此条学习路线<此路线大多为2.7版>,遇到需要记录的知识点(官方文档)或其他信息时,以本文为目录进行扩充。二 2.27学习进度 跟着学习路线中的视频1了解了一遍Python的基本语法,当日记录的笔记xmind 见下:...
2019-02-27 12:07:41 299
原创 Python 学习目标 - 19.2.27
18年在自己两台笔记本上安装的有Python3.63,在此版本上开始学习Python。希望能够达成的目标是:能够写出 网络爬虫,可以爬取一般资讯网站中的文本字段、图片、音频等。对于设计较复杂的网站有爬取思路。 能够熟练使用常用的数据分析类库,批量操作 windows平台下类excel、access等办公软件。 编辑windows平台下 .exe格式的可视化客户端文件,实现获取图像(包括...
2019-02-27 11:49:59 270
原创 Android Studio 隐藏title报错
当使用requestWindowFeature(Window.FEATURE_NO_TITLE);报错可能原因是继承的不是activity,可以使用getSupportActionBar().hide();来解决,记得要放在setContentVIew后面,并注释掉上面那句
2016-11-15 17:35:10 524
转载 Android Studio 快捷键
Android Studio常用快捷键1. Ctrl+D: 集合了复制和粘贴两个操作,如果有选中的部分就复制选中的部分,并在选中部分的后面粘贴出来,如果没有选中的部分,就复制光标所在的行,并在此行的下面粘贴出来。2. Ctrl+空格: 输入代码时按此组合键会列出与之相匹配的类、方法名、成员变量等,起智能提示的作用。在编辑XML文件一样有用。3. Ctrl+向下箭头 或C
2016-11-14 20:36:16 191
转载 Android Studio 对应键盘按键
Home键(小房子键)在键盘上映射的就是home键,这倒是很好记。Menu键用于打开菜单的按键,在键盘上映射的是F2键,PgUp键同样可以。另外,看英文原文的意思,貌似这个键在某些机型上会被设计为左软件(left softkey)Start键这个键在模拟器和G1真机上我都没有找到到底是哪个键。映射的是Shift+F2或PgDn,某些机型会被设计为右软
2016-11-14 19:54:30 2439
运营小工具 - 视频去除水印工具
2022-11-09
2019年~2023年 QS世界大学排行榜(中英文) excel 五年合集 结构化数据
2022-06-10
(2022版)基于第一财经 中国城市排名(城市等级排名)一二三四五线excel表.xlsx
2022-06-01
333地级市和4省辖市 互相之间距离(精确到米) 经纬度
2022-05-15
2022年 最新 双万计划 excel 结构化数据
2022-05-11
nosqlbooster4mongo-5.2.8.exe
2019-12-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人