![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 50
Mr.zwX
2019年进入电子科技大学接触计算机(方向涉及:机器学习/深度学习(CV、NLP、GNN)、时空数据挖掘、一点点开发(部分后端/前端)),2022年在电子科技大学实验室科研,2023年在复旦大学NLP组实习,2023年9月至今,在北京大学人工智能研究院科研(模型加速/压缩、隐私计算)...保持努力,anyway,这个平台是我记录一些乱七八糟计算机笔记的地方,供(记性不好的)自己复习,同时也分享给大家
如需联系:请发邮件至wenxuan225@qq.com
展开
-
UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xf9 in position 56: illegal multibyte sequence
抽空慢慢把载入数据csv/txt文件时出现的UnicodeDecodeError报错问题的解决方案整理出来,虽然是玄学问题,但是多试试方法总还是可以解决的(特别是处理出来几十万量级的数据集出现这个问题,心态比较容易稳不住)方法一:将文件用txt文本格式打开,另存为时选择utf-8编码格式,然后转回csv格式方法二:直接用office或wps将报错的csv文件打开,然后另存一份替换原文件...原创 2021-10-17 12:39:00 · 892 阅读 · 0 评论 -
IP Geolocation Papers
这篇论文用简要的话记录一下写得比较好的IP Geolocation科研论文。原创 2021-10-04 23:37:39 · 392 阅读 · 0 评论 -
Ensemble Learning之GBDT及XGBoost算法手写推导
在推导XGBoost原理之前,需要对GBDT进行学习,GBDT是XGBoost的基础。由于存在较多公式,所以这次学习过程选择手写笔记的形式~更多算法介绍 优缺点总结 源码见文末的参考资料,本文记录算法的推导及原理。参考资料:通俗理解kaggle比赛大杀器xgboostNLP-LOVE一些有关Ensemble Learning的学习记录...原创 2021-07-31 23:04:51 · 187 阅读 · 0 评论 -
【数据挖掘】多标签XGBoost(multi-label)模型实现特征重要性(feature_importance)的输出
我封装的多标签(multi-label)XGBoost模型是像下面这样写的:from xgboost import XGBRegressorfrom sklearn.multioutput import MultiOutputRegressormulti_xgb = MultiOutputRegressor(XGBRegressor(max_depth=10, learning_rate=0.1, n_estimators=500, silent=False))multi_xgb.fit(trai原创 2021-07-26 20:38:09 · 3315 阅读 · 8 评论 -
【数据挖掘】Python绘制一组样本的CDF概率分布函数(经验分布函数)
CDF是什么?简单对概率分布函数进行一个描述,在概率论中要研究一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,称这种函数为随机变量ξ的分布函数。F(x)=P(X<x),F(+∞)=1,F(−∞)=0F(x)=P(X<x),F(+\infin)=1,F(-\infin)=0F(x)=P(X<x),F(+∞)=1,F(−∞)=0CDF对机器学习有什么用?可以非常直观地对预测误差进行分析,可以判断出当误差为某个值时的具体概率是多少,以该图像指标为基础为后续的优化和改进做铺垫。现原创 2021-07-21 20:29:03 · 4459 阅读 · 2 评论 -
Matplotlib绘制水平/垂直线以及带变量图例 学习记录
构造函数图绘制水平线和垂直线绘制带变量的图例各个参数的自定以设置import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-5, 5, 300)y1 = 2 * np.sin(x)y2 = 2 * np.cos(x)plt.plot(x, y1, label='y1=sinx')plt.plot(x, y2, label='y2=cosx')list = [-2.2355, -1.1547, 0.2578,.原创 2021-07-21 10:18:05 · 1377 阅读 · 0 评论 -
【数据挖掘】通过两点的经纬度高效计算实际的地球球面距离
由于地球是存在弧度的,所以在已知两点经纬度的情况下直接计算直线距离在一些场景下并不可取的,在计算过程中需要考虑到地球赤道半径等参数,从而得到真实的地球球面距离。在这里将一些计算方法记录下来,方便之后作为工具直接调用。仅使用math库进行距离计算直线距离def get_distance_function(latA, lonA, latB, lonB): ra = 6378140 # 赤道半径 rb = 6356755 # 极半径 flatten = (ra - rb) /原创 2021-07-15 19:08:37 · 947 阅读 · 4 评论 -
【数据挖掘】XGBoost的多输出标签(multi-label)预测攻略MultiOutputRegressor/MultiOutputClassifier
之前一直在想一个问题:我可以用Softmax回归做多分类问题(判断图中是猫还是狗还是大象),但如果是多标签呢?(同时要判断图中衣服的款式、颜色和大小)这个问题一直留在我心中,我也去找了多标签分类/回归的推导,但是仍然不知道如何通过代码实现这个多标签预测问题。这次在做多标签预测时,发现了sklearn库竟然是可以直接支持多标签预测及指标衡量的!不管我们有多少个不同独立的labels,都可以通过sklearn将多个标签包裹在其中,进行一次性的训练,并得到最终的损失/精度指标。要使用的就是:sklearn中的原创 2021-07-14 16:20:43 · 7093 阅读 · 4 评论 -
【数据挖掘】多特征组合的基本方法
举个相当简单的例子:在一个csv文件中(已经通过pandas读入为data),需要通过服装的颜色、风格、销量和类别去预测其价格。每个特征分别属于一列,现在我们要组合(已经预处理好的)特征,有如下的写法:先选出特征对应的列名,再得到所有选取的特征features_select = ['color', 'style', 'sale', 'category']combine_features = data[features_select]features_dummies = pd.get_dummi原创 2021-07-13 17:08:33 · 2518 阅读 · 0 评论 -
一些有关Ensemble Learning的学习记录
首先是上周花了三四天时间大致看了看Ensemble Learning的一些知识,原理尚未很深入去学,宏观上理解了一下集成学习的思想和一些实现原理。主要是学习了并行模型bagging和串行模型boosting两种,以及堆叠式的stacking。集成策略主要是avg vote和learning combiner三种。文章目录1 集成学习手写笔记2 Ensemble Learning Demo2.1 Voting2.2 Bagging2.3 AdaBoost2.4 XGBoost2.5 CatBoost原创 2021-06-13 00:03:51 · 399 阅读 · 8 评论 -
IP Geolocation三篇论文笔记
第一次接触IP Geolocation,花了两天时间粗略了解了一下他们之前的工作在解决什么问题,接下来几天是细读IP Geolocation的实现过程(结合着Ensemble Learning)原创 2021-05-29 12:35:22 · 454 阅读 · 0 评论