- 博客(16)
- 收藏
- 关注
原创 代码打包为exe文件
用到python里面的一个模块查看我们这个项目安装哪些第三方库把安装的第三库的名字和版本全部写入一个txt文件里当要按照txt文件里的第三库名字时如果代码有报错,想看打包的exe哪里有问题,打开电脑终端,输入exe文件的路径就可以了。
2024-06-25 14:51:33
236
原创 c语言运算符
按位或操作使用 | 符号表示。对于两个二进制数,如果对应位上至少有一个是1,则结果的那个位也是1;如果两个对应位都是0,则结果的那个位是0。
2024-06-17 19:58:36
229
原创 爬虫 解决验证码问题
这次介绍selenium用超级鹰的工具来自动化处理验证码来完成登录。2.用网上一些处理验证码的工具,如超级鹰。3.用已登录好的cookie。1.利用图像处理技术。
2024-05-31 17:38:28
936
原创 爬虫 selenium
selenium可以像人一样打开浏览器,可以从selenium中直接提取网页上的各种信息,有些网页的请求数据是加密的,碰到这种情况我们就可以用selenium模拟浏览器去请求这些数据,跳过解密步骤,用selenium来驱动浏览器来打开去发送请求,可以避免一些反爬机制与手段,在一些情况下,更加方便,缺点就是速度太慢了,每次打开都要很久若是碰到打开浏览器自动关闭的情况下,是selenium的版本太高导致的,把版本换低一点就可以了。
2024-05-30 23:02:54
710
原创 爬虫爬取电影,下载ts并合并ts实例
本次爬取电影内容有key加密,对ts文件进行了解密,并将ts文件合并成mp4视频。采用协程方式来爬取ts文件,大大提高了爬取的效率。代码如下:建议从下往上看。
2024-05-30 16:32:06
700
原创 爬虫 异步携程
爬虫中用异步协程进行爬取内容,可以大大的节省时间,效率也大大的提高,用异步协程方法爬取一部小说只需几秒时间就爬完了,其效率非常高,下面是几个用异步协程爬取内容的几个案例另一种写法。
2024-05-30 16:23:46
556
原创 xpath
xpath在爬虫里面解析html,由于xpath的语法非常简单,并且效率高,也非常受喜爱,在爬虫解析html中常用的三种方法:xpath、re正则表达、bs4模块,其中xpath也是当中效率最高的。下面是几个用xpath方法来解析html的例子。/表示层级关系,第一个/是根节点。
2024-05-30 16:22:48
114
原创 爬取博客园的文章并解决状态码为400问题且url不变
当我们切换页面时,url只有后面#的在变化,url后面#的内容并不能标记唯一的一个页面,也就是说 当我们切换页面时,他的url是不变的,这就是后台的异步操作,需要network进行抓包处理。当查看network的发起程序的aggsite.loadPostList来看后台数据的操作,发现数据是json。当程序的状态码是400时,意思是请求表单必须是json格式,所以我们把请求参数改为json格式就可以解决了。所以我们的参数需要转换成json格式。
2024-05-26 15:58:39
355
原创 mysql
持久化储存、更加安全的权限管理访问机制下载完MySql 在终端连接数据库 ,前提是添加环境变量 进入终端输入:utf-8的储存为三个字节,而mysql数据库中有些特殊字符占四个字符,所以mysql一般用编码,因为它支持四个字节。
2024-04-13 16:29:37
809
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人