自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark SQL 常见问题解决方法整理

不定期更新SQL处理中遇到的常见问题

2022-12-15 11:50:30 825 1

原创 python 系数带不等式约束的线性回归

python 中实现系数带不等式约束的线性回归

2022-09-16 09:12:04 1620

原创 np.meshgrid 根据子矩阵信息构建矩阵

面临类似以子矩阵替换原始矩阵元素的矩阵构建方法在numpy以及r中都很少有方便的实现,以下提供一个较为快捷的方法

2022-04-11 16:28:30 2078

原创 正则表达式项目,批量修改文件

事情起因是这样的,我们老师用R markdown 写了一本书,但书里存在公式上的错误,需要在公式处加美元符号。于是我们就愉快地接下了改符号的任务。因为想偷懒,所以试着用python程序实现批量添加符号,参考代码如下:import relist0 = list(range(2,24))list0.extend([26])for i in list0: with open('D:\\programe\\2824139246\\FileRecv\\金融时序\\chap%ds.Rmd' %i,

2021-05-07 00:03:33 354

转载 k-prototypes算法python实现,参数详解

k-prototypes算法是用于处理混合类型数据的经典聚类算法,为了方便研究者利用python进行混合聚类的数据分析,特将python中kmodes包重要参数与使用方法转载如下:以下内容搬运自创作者的GITHUB:https://github.com/nicodv/kmodes/blob/master/kmodes/kprototypes.pykmodes包提供了kprotypes算法的python 实现,使用方式与sklearn中kmeans算法类似。训练样例:kp = KPrototypes

2020-12-28 10:41:16 7865 1

原创 python 实用小技巧整理 条件赋值,数据集随机划分,分类汇总,缺失值

1.查看数据集是否有缺失值:data.isnull().any()2.dataframe 分类汇总:data.value_counts()3.dataframe去重:data.drop_duplicates()4.dataframe重新赋值:data = data.replace({'原数据1':'新数据1','原数据2':'新数据2'})5.dataframe描述性统计:data.describe()6.dataframe条件赋值:data['新值']=np.where((

2020-12-20 21:08:15 470

原创 python series多重索引问题, 征求value_counts显示0值索引的方法

最近做期末论文,在针对数组的处理问题上遇到了循环计算量太大的问题。我的原始代码如下:数据集可以参考和鲸社区数据集:https://www.kesci.com/mw/dataset/58e893c49957300141f973ddLC = pd.read_csv('D:/data_analysis/schoolwork/LC.csv', encoding='utf-8')LP = pd.read_csv('D:/data_analysis/schoolwork/LP.csv', encoding='ut

2020-12-09 22:54:09 987

原创 李航《统计学习方法》朴素贝叶斯估计例题 不用(非)循环的python实现

针对统计学习方法中朴素贝叶斯估计的python实现中,大多数的小伙伴都使用了for循环进行编译。因为我导师觉得看for循环太累了,所以用不带for循环的程序写了一下。程序如下:import numpy as npimport pandas as pdtrain_data = np.array([[1, "S", -1], [1, "M", -1], [1, "M", 1],

2020-12-02 17:41:09 225

原创 一个有趣的规划问题

最近看到了一个有趣的小问题,整理了一些自己的思考,对此做一个简单的总结。问题如下:我在某宝买了100袋乐事大波浪薯片,薯片到了菜鸟驿站,菜鸟驿站距离我家500米,我要把薯片全部拿回家。但是,我每次最多只能拿50袋,并且我嘴馋,只要手上有薯片,每走10米就要吃掉一袋。请问,我最多能把几袋薯片拿回家?假设:1.我中途可以把薯片放在地上,不会被人拿走2.我可以一次取一部分的快递3.为简化模型,考虑离散情况,我每次至少走10米,一包薯片必须吃完思路:最后剩下的薯片最多>吃掉的薯片最少>带

2020-11-20 15:06:14 302

原创 python安装包pip无法更新,pycharm无法下载包,阿里云无法安装

再次整理一下python 无法更新的问题。最近两天pycharm上需要用到新的包,但没法在pycharm里自行下载了。但去官网下wheel文件又很烦,所以专门花了一点时间解决这个问题。(新手比较菜)pycharm 没法下载新安装包有可能是pip没有更新到最新的版本。参考网络上的做法,通常是在控制台(cmd)上运行 python -m pip install --upgrade pip但是,...

2020-02-28 23:14:48 770

原创 过时的淘宝数据爬取

为了整理一下以前的项目,将以前编写的爬虫程序上传。此项目为爬取淘宝上笔记本电脑价格、详细参数、销量等数据而编写。初期有效,但随后淘宝设立了相应反爬虫程序,此爬取方法已经失效。此爬取过程分两步,其一是爬取搜索页面所有的商品与其链接地址import reimport xlwtimport time import requestsimport pandas as pdfrom retryi...

2020-02-14 18:32:26 374

原创 pycharm无法使用之前的安装包

前两天,将原来使用的python移到了jetbrain系列的pycharm上。刚接触pycharm时因为每建立一个新工程都会重新建立环境,所以重复安装包会很麻烦。简单摸索以后发现,如果像我一样以前装过包的,可以设置使用什么样的环境里的包。这样可以避免重复安装。打开file-setting在project interpreter项中找到你原来包的安装目录,选定后点击apply,就可以应用原来...

2020-02-14 17:50:34 797

final_data2.csv

此数据来源于阿里天池数据集提供的开源数据,为作者按照用户名重新分类汇总整理后得到的数据。原始数据参考https://tianchi.aliyun.com/dataset/dataDetail?dataId=47&lang=zh-cn

2020-05-08

final_data.csv

此数据来源于阿里天池数据集提供的开源数据,为作者按照用户名重新分类汇总整理后得到的数据。原始数据参考https://tianchi.aliyun.com/dataset/dataDetail?dataId=47&lang=zh-cn

2020-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除