- 博客(21)
- 收藏
- 关注
原创 python ast 筛选出使用了splash的类名
1、正则匹配类名较慢,而且匹配if-elif 语句中的网站url和className费劲。从爬虫代码中筛选出使用了splash的class,并匹配对应的网站id。3、在上万行if-elif 中匹配出对应的 url和class关系。1、公司爬虫框架存在一坨巨大的屎山,上万行的ifelse语句。2、上万行的if-else嵌套会导致回调堆栈溢出。2、遍历这些py文件,判断是否使用了splash。2、没有明确文档哪些网站使用了splash进行访问。1、遍历爬虫代码所在目录找出所有的py文件。
2023-06-19 17:42:25
178
2
原创 xpath定位问题导致的数据缺失,selenium点击事件点击失败
问题描述:近日在抓取某网站的时候,遇到一个第三方的数据加密,由于破解成本较高,选择使用selenium进行抓取数据。在写完抓取脚本运行时候,发现脚本总会报错:selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//span[contains(text(), '123565677')]"
2020-07-29 09:44:04
2105
原创 python sqlalchemy的使用
sqlalchemy使用分为models(表结构) 和 DML语句在models中主要存储表结构:需要导入的模块如下from sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import Column, Text, Integer, FLOAT, String具体写法:fro...
2019-08-01 17:06:51
542
原创 反编译微信小程序 获取微信小程序JS和CSS
本文参考博客:https://www.cnblogs.com/teamemory/p/10873699.html https://baijiahao.baidu.com/s?id=1626150833428399320&wfr=spider&for=pc工具:夜神模拟器,微信,RE文件管理器, QQ, node.js...
2019-07-22 11:55:15
2372
原创 关于urllib几个提取url方法的用法以及局限性。
以下所有的代码均是是python3.6环境运行1、提取url的类别 import urllib.requestd = urllib.request.splittype("https://www.baidu.com//")print(d)a = urllib.request.splittype("https://www.baidu.com")print(a)('http...
2019-05-08 18:09:26
1159
原创 分享一个各种已经编译好python包的网站,可解决windows无法安装某些python包问题
https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
2019-05-07 15:36:58
1370
原创 python json.loads() 时报错json.decoder.JSONDecodeError: Invalid control character
json.loads(response.text())执行这条函数时报错: json.decoder.JSONDecodeError: Invalid control character原因:在response.text()的 键值中有非法控制符号如\n\t解决方法:json_obj = json.loads(response.text(), strict=False)添加strict...
2019-05-07 12:04:28
4482
原创 关于mysql数据存取问题
问题:利用sqlalchemy:page_size = 1000page_num = 0session.query(EsContentData).limit(page_size).offset(page_size*page_num).all()当数据库数据非常多的情况查询速度就回非常慢。经过测试select * from table limit 1000 offset 2000...
2019-05-06 13:29:20
285
原创 python 日期转换
%y 两位数的年份表示(00-99) %Y 四位数的年份表示(000-9999) %m 月份(01-12) %d 月内中的一天(0-31) %H 24小时制小时数(0-23) %I 12小时制小时数(01-12) %M 分钟数(00=59) %S 秒(00-59) %a 本地简化星期名称 %A 本地完整星...
2019-04-28 17:39:14
864
原创 requests下载文件
在某些特定的爬虫需求中,我们难免要去下载爬到的下载链接,这里经过自己的实验后确定了一个可行的方案如下:import requests#抓到的下载链接url = 'http://duokoo.baidu.com/game/?pageid=Hdkicssp&p_tag=1702182'#将请求到内容写入到文件当中with open("a.apk", "wb") as f: ...
2019-04-25 18:07:37
3342
原创 scrapy 利用pymysql批量插入数据
最近在写爬虫爬取APP的时候通过scrapy的pipelines插入数据库,返回一次item 便插入一条数据,发现运行速度非常慢,一天只爬取了几万条数据。之前记得学习爬虫时,老师曾经提过,每条数据都插入会造成爬取速度非常慢。 所以我改进了一下自己的代码,选择批量插入数据库。每次往数据库中写入1000条数据,代码运行效率有大幅度的提升。本次使用的scrapy+pymysql...
2019-03-28 13:50:52
2281
1
转载 centos7 下安装chrome+Chromedriver
1、配置yum源,在目录/etc/yum.repos.d/下创建新文件google-chrome.repo2、编辑该文件,输入或复制以下内容。 [google-chrome] name=google-chrome baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch ...
2019-02-21 13:57:25
966
原创 邻近取样算法
一、最邻近规则分类KNN算法 1、输入基于实例的学习,即懒惰学习 2、算法步骤 选择参数K 计算未知实例与所有已知实例的距离 选择最近的K个已知实例 根据少数服从多数的投票法则,让未知实例归类为K个最邻近样本中最多次的类别 3、细节 K的选择:K的值(1,3,5,7等必须为奇数个...
2018-12-25 15:17:22
1375
原创 决策树
机器学习中分类和预测算法的评估:准确率速度强壮性:有噪声可以不受干扰可规模性:数据特别大(指数级增长)的能够继续使用可解释性:当我们算法对特征值的选择和归类的时候,能够非常容易解释我们学习出来的模型 决策树(分类算法)决策树是一个类似于流程图的树结构:其中,每个内部节点表示在一个属性上的...
2018-12-25 15:16:07
229
原创 机器学习步骤
1、将数据拆分为训练集和测试集2、用训练集和训练集的特征向量来训练算法3、用学习来的算法运用在测试集上来评估(可能涉及到调整参数)算法,用验证集(用来调参)。 ...
2018-12-24 10:53:40
518
原创 机器学习基本概念
概念学习:从有关某个布尔函数的输入输出训练样例中推断出该布尔函数例如:概念定义在实例集合智商,这个集合表示为X(X:所有可能的日子,每个日子有六个属性)。c(x)= 1 则享受运动 c(x)= 0 则不享受运动x:每一个实例X:样例集合学习目标 fuc: X -> Y ...
2018-12-24 10:53:12
168
转载 机器学习和深度学习-----概念篇
预处理+机器学习库进行机器学习。 监督学习:A、分类:决策树,临近取样 ,支持向量机, 神经网络算法B、回归:线性回归,非线性回归 非监督学习:A、K-near算法聚类B、 hierarchical dustering 算法聚类 机器学习...
2018-12-24 10:52:05
255
转载 数据结构与算法---python篇
算法的五大特性:1、输入:有0个或多个输入2、输出:有0个或多个输出3、确定性:算法每一步都有一定的含义,不会出现二义性4、有穷性:算法在执行有限的步骤之后会结束,而不是无线循环执行。5、可行性:算法的每一步都是可行的 如果 a+b+c=1000,且 a^2+b^2=c^2(a,b,c 为自然数),如何求出所有a、b、c可能的组合? import ...
2018-12-13 11:23:21
150
原创 ftp的使用
shell 编程runlevel 查看级别init 0 关机init 6 重启/etc/inittabid:级别:initdefault: 设置系统默认的启动级别开机进入单用户:修复系统GRUB 是引导装入器GRUB配置文件中default =0 默认启动的系统为第一个ls系统hiddenmenu 隐藏选择菜单 splashimage(hd0,0)/grub/sp...
2018-08-13 09:55:35
324
原创 linux中软件包的安装
用户 :建立删除,授予权限useradd 创建用户passwd 设置密码userdel -r 删除用户账号usermod 设置用户属性账号保存在/etc/passwd密码保存在/etc/shadow用户创建初始模板 /etc/skel-g为分组添加组groupadd删除组groupdelroot用户名:密码: /root:/bin/bash当...
2018-08-13 09:52:50
224
原创 Linux命令
root@instructor instructor为服务器名字#为管理员$为普通用户当前为一个.上一级目录为..浅蓝色是快捷方式:链接文件cd - 两个工作目录之间切换以跟为起始的都为绝对路径touch 更新文件时间cp 复制cp 源文件 +复制到的位置.重命名的名字rm /bin/abc.txt 删除命令rm -f 强制删除rm-r 删除目录,通配符:r...
2018-08-13 09:51:51
132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人