Duke_LH-CSDN博客

原创 a_bogus逆向纯算

这里主要是根据时间戳和一些数组前面的值经过位运算后生成，里面的76位是取的环境值拼接成的字符串，77位是第76位加密得到的数组，可以写死。第一个是一个50位的数组，取自大数组里面固定位置的值，这个位置可以插桩得到，剩下两个是第82位和第87位。由第86位和第90位拼接后转字符串，和另外一个固定数组循环生成一串乱码。不断的调整断点跟栈发现整个vmp加密流程依靠着一个大数组，不断的往里进行取值，一番操作后又往里存，包括最后生成的。由第86位和数组前面的一些固定顺序的值通过位运算生成，参与第88位的生成。

2024-10-14 17:24:33 2028 5

原创爬虫：Sentry-Span参数逆向

在抓某眼查数据太过频繁时会出现极验的验证码。极验的教程有很多，主要是发现在这里获取验证码的时候需要携带参数。在这里记录一下逆向的主要过程，直接上补环境的代码。

2024-07-08 16:55:10 437 1

原创数据挖掘：银行客户认购产品预测

数据挖掘：银行客户认购产品预测。

2022-10-24 16:37:39 4460 1

原创爬虫 — 大众点评商户信息的爬取和文字反爬

信息爬取import requestsfrom lxml import etreeimport timeimport jsonimport pandas as pdimport reimport json# 获取商户名称和IDresult = []for i in range(1,51): print(i) url = r'http://www.dianping.com/haikou/ch10/p{page}'.format(page=i) headers =

2021-12-11 20:40:06 5313 2

原创数据挖掘：贷款违约预测

数据数据来源阿里天池学习赛：零基础入门金融风控-贷款违约预测代码import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_score,accuracy_scoreimport joblibfrom catboo

2021-05-19 17:57:24 1374

原创 cat_features must be integer or string, real number values and NaN values should be converted to str

第一次用catboost训练模型时，出现报错，具体如下：CatBoostError: Invalid type for cat_feature[non-default value idx=0,feature_idx=4]=3.0 : cat_features must be integer or string, real number values and NaN values should be converted to string.报错信息很好理解，训练器要求我们指定的类别变量的值必须为整型或

2021-05-14 17:40:44 3599 3

原创分类预测：会员回购预测

项目说明数据集来自阿里天池：会员回购预测目的是为了判断顾客是否会响应活动从而回购，也就是一个是否响应活动的二分类模型数据说明train&testtarget:“0”代表不回购，“1”代表回购transactions代码import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import trai

2021-01-12 18:18:14 989 1

原创 Pyecharts 折线堆叠图数据序列和坐标轴不对应的问题

在用 pyecharts 练手的时候，尝试用下表中的数据构造一份折线堆叠图year_line = Line().add_xaxis(summary.columns.to_list())# year_line = Line().add_xaxis([1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,13])for i in range(4): year_line.add_yaxis(str(i+2012), stack='

2020-08-27 20:47:51 4161 3

原创数据分析：母婴商品数据可视化

数据来源：Baby Goods Info Data读取数据import numpy as npimport pandas as pdfrom pyecharts.charts import Pie,Bar,Pagefrom pyecharts import options as optsfilename = r'train.csv' #联结年龄和性别后的表filename1 = r'trade_history.csv'data = pd.read_csv(filename)data1 =

2020-08-25 11:32:06 1760 2

原创回归分析:二手车价格预测

项目说明：数据来源阿里天池的一个挖掘比赛：预测二手车交易价格import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_absolute_err...

2020-04-14 16:25:18 1411

原创 python：疫情数据可视化

数据来源：BlankerL数据截止2020-04-10下午4点json数据转 csvimport jsonimport timeimport csvfile = open('DXYArea-TimeSeries.json','r',encoding='utf-8')infos = json.load(file)with open('data.csv','a',newline='...

2020-04-13 18:11:42 6058 4

原创《商务与经济统计》Python实现笔记（五）

时间序列分析移动平均import pandas as pdimport numpy as npdata = pd.DataFrame([17,21,19,23,18,16,20,18,22,20,15,22],columns=['sale'])data["rolling_mean"] = data.rolling(3).mean().shift(1)#选前3个时间单位的平均值，预测值...

2020-03-25 18:05:57 777

原创《商务与经济统计》Python实现笔记（四）

一元线性回归import pandas as pdimport numpy as npimport statsmodels.api as sm# import statsmodels.formula.api as smf方法二x = np.array([2,6,8,8,12,16,20,20,22,26])y = np.array([58,105,88,118,117,137,15...

2020-03-25 18:04:00 655

原创《商务与经济统计》Python实现笔记（三）

方差分析单因素方差分析（多个总体均值相等的假设检验）import scipy.stats as statsa = [58,64,55,66,67]b = [58,69,71,64,68]c = [48,57,59,47,49]stats.f_oneway(a,b,c)F_onewayResult(statistic=9.176470588235295, pvalue=0.003...

2020-03-25 18:00:28 629

原创《商务与经济统计》Python实现笔记（二）

总体方差的置信区间from scipy.stats import chi2def CI(n,sigma2,alpha): """ n:样本量 sigma2:样本方差 alpha:置信水平 """ a = (1-alpha)/2 b = (n-1)*sigma2 lower = b/chi2.ppf(a,df=n-1) ...

2020-03-25 17:51:13 591

原创《商务与经济统计》Python实现笔记（一）

独立样本T检验（两样本均值估计两总体均值大小关系）import pandas as pdimport numpy as npfrom scipy import stats# 传数据data = pd.read_excel(r"C:\Users\liuhao\Desktop\python_work\Python数据分析与挖掘实战\chapter8\test\data\data.xls")...

2020-03-25 17:40:16 751

原创 norm.interval和t.interval不能直接求样本的置信区间

按网上搜到的结果调用scipy.stats包计算参数已知的置信区间from scipy import stats as sstconf_int = sst.norm.interval(0.95, loc=82, scale=20)# conf_int = sst.norm.cdf(1.96)conf_int输出结果如下：(42.80072030919892, 121.19927969...

2020-03-07 12:16:18 3988 7

原创购买行为预测婴儿年龄：Apriori 和 KNN 的简单实现

Apriori 代码import pandas as pd#自定义连接函数，用于实现L_{k-1}到C_k的连接def connect_string(x, ms): """ x:频繁项集列表 ms: 连接符，这里用 ‘---’ return: 返回长度+1的频繁项集，即L_{k-1}到C_k的连接 """ x = list(map(lambda i:sorted(i....

2019-09-13 21:54:20 1216

原创 Python — 爬取饿了么外卖店信息

在学数据可视化，缺少点数据进行实操，就想着从饿了么上面爬点外卖店信息。主要是获取数据，所以代码比较简陋，直接上代码：import requestsimport jsonimport csvdef crawler_ele(page=0): def get_page(page): url = 'https://h5.ele.me/restapi/shopping/v3/resta...

2018-12-22 16:44:09 7970 6

原创 Pandas 报错AttributeError: 'Index' object has no attribute 'remove_unused_levels'

执行代码，将 Series 转换成 DataFrame 时：s1 = pd.Series(np.random.rand(5),index=['a','s','d','f','g'])print(s1.unstack())报错情况如下：Traceback (most recent call last): File "C:\Users\liuhao\Desktop\资料\python_w...

2018-12-03 17:54:37 17055 2

原创 Pandas read_json()时报错ValueError: Trailing data

有一份json格式的文件，如下：{ "cover": "http://p2.music.126.net/wsPS7l8JZ3EAOvlaJPWW-w==/109951163393967421.jpg?param=140y140", "title": "2018上半年最热新歌TOP50", "author": &amp

2018-12-01 16:15:06 33239 20

原创爬虫 — 爬取携程的航班信息

功能介绍：输入起点、终点、时间就能得到携程上的航班信息代码：from prettytable import PrettyTableimport requestsimport jsondef xiecheng(dcity,acity,date): date = date[0:4]+'-'+date[4:6]+'-'+date[6:8] headers = { &amp;amp;amp;quot;User-A...

2018-11-07 17:54:45 15114 44

原创 Python+Selenium — 爬取京东搜索商品页数据

用 request 下载京东搜索商品页面源码后，发现得到的数据只有30条，怀疑京东搜索页面加载方式应该是动态渲染的，所以打算采用 Selenium 驱动谷歌浏览器来爬取搜索页面。代码如下：from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.web...

2018-11-05 16:34:07 1506

原创爬虫 — curl转requests

最近在弄爬虫，有些网站需要传入headers，自己将网站的 headers 一一弄下来形成字典太麻烦了。偶然发现 Chrome 可以生成一个叫 cURL 的东西，里面包含该网页的 headers 。就写了个函数自动提取并返回字典形式的 heades。先介绍一下怎么获取到网页的 cURL:按上面步骤执行就能得到下面的东西：curl &amp;amp;quot;https://www.baidu.com/&amp;amp;quot; -H &amp;amp

2018-11-02 11:52:21 2026 1

原创爬取大众点评网的酒店信息

输入城市的拼音，就能爬取大众点评上面该城市酒店的信息，将数据写入 csv 文件。不完善点：只能输入拼音，当然可以下载第三方库 pinyin 进行转换。未对输入的城市进行判断。代码如下：import requestsfrom lxml import etreeimport csvimport reclass DPHotel(): def __init__(self,c...

2018-10-30 15:23:20 862

原创 Scrapy 爬取网易云音乐播放量百万以上的歌单以及歌单详情

创建爬虫查看歌单链接 https://music.163.com/#/discover/playlist用 requests 下载此链接的网页发现不是原网页，应该是被跳转到了登录页面。分析之后得到真实网页应该是：https://music.163.com/discover/playlist （去掉 #）同时还需要设置一下 headers，如下：DEFAULT_REQUEST_HEADER...

2018-10-24 17:59:29 5287

转载 Scrapy通用爬虫笔记—配置文件与配置加载

Scrapy通用爬虫个人理解就是针对一系列相似的站点建立一个爬虫框架，包含基本的框架代码，不同点可能在于各个站点的数据形式、爬取规则、页面解析形式。将爬取各个站点所需要的代码分开保存，爬取时再在框架中导入即可。1. 配置文件配置文件内容：简单点就是针对要爬取的站点所需要的独有的信息，参数都应该写进去。可以包括该爬虫的信息，起始链接和域名，爬虫设置（settings），爬取规则（Rule）,以...

2018-10-09 17:55:52 2852 2

转载 Scrapy通用爬虫笔记 — CrawlSpider和Item Loader

CrawlSpiderCrawlSpider:继承自Spider类，有两个重要的属性和方法。process_start_url():当start_urls里的Request执行下载得到Response后，执行该函数进行解析，必须返回Item或者新的Request。rules：定义爬取规则的属性，是一个包含一个或多个Rule规则的列表。通过定义的Rule可以筛选出符合我们要求的链接。通过...

2018-10-07 12:04:58 719

转载 ImagesPipeline的源码

学习scrapy框架时，用到了自定义继承自ImagePipeline的类下载图片，对于函数中的参数存在疑问，查看了ImagePipeline的源码，如下：class ImagesPipeline(FilesPipeline): &amp;amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;quot; Abstract pipeline

2018-10-06 11:48:00 909

Duke_LH的博客