idiotic_bird-CSDN博客

原创 spark SQL 常见问题解决方法整理

不定期更新SQL处理中遇到的常见问题

2022-12-15 11:50:30 867

原创 python 系数带不等式约束的线性回归

python 中实现系数带不等式约束的线性回归

2022-09-16 09:12:04 1729

原创 np.meshgrid 根据子矩阵信息构建矩阵

面临类似以子矩阵替换原始矩阵元素的矩阵构建方法在numpy以及r中都很少有方便的实现，以下提供一个较为快捷的方法

2022-04-11 16:28:30 2083

事情起因是这样的，我们老师用R markdown 写了一本书，但书里存在公式上的错误，需要在公式处加美元符号。于是我们就愉快地接下了改符号的任务。因为想偷懒，所以试着用python程序实现批量添加符号，参考代码如下：import relist0 = list(range(2,24))list0.extend([26])for i in list0: with open('D:\\programe\\2824139246\\FileRecv\\金融时序\\chap%ds.Rmd' %i,

2021-05-07 00:03:33 375

转载 k-prototypes算法python实现，参数详解

k-prototypes算法是用于处理混合类型数据的经典聚类算法，为了方便研究者利用python进行混合聚类的数据分析，特将python中kmodes包重要参数与使用方法转载如下：以下内容搬运自创作者的GITHUB:https://github.com/nicodv/kmodes/blob/master/kmodes/kprototypes.pykmodes包提供了kprotypes算法的python 实现，使用方式与sklearn中kmeans算法类似。训练样例：kp = KPrototypes

2020-12-28 10:41:16 8155 1

原创 python 实用小技巧整理条件赋值，数据集随机划分，分类汇总，缺失值

1.查看数据集是否有缺失值：data.isnull().any()2.dataframe 分类汇总：data.value_counts()3.dataframe去重：data.drop_duplicates()4.dataframe重新赋值：data = data.replace({'原数据1':'新数据1','原数据2':'新数据2'})5.dataframe描述性统计：data.describe()6.dataframe条件赋值：data['新值']=np.where((

2020-12-20 21:08:15 482

原创 python series多重索引问题，征求value_counts显示0值索引的方法

最近做期末论文，在针对数组的处理问题上遇到了循环计算量太大的问题。我的原始代码如下：数据集可以参考和鲸社区数据集：https://www.kesci.com/mw/dataset/58e893c49957300141f973ddLC = pd.read_csv('D:/data_analysis/schoolwork/LC.csv', encoding='utf-8')LP = pd.read_csv('D:/data_analysis/schoolwork/LP.csv', encoding='ut

2020-12-09 22:54:09 1003

原创李航《统计学习方法》朴素贝叶斯估计例题不用（非）循环的python实现

针对统计学习方法中朴素贝叶斯估计的python实现中，大多数的小伙伴都使用了for循环进行编译。因为我导师觉得看for循环太累了，所以用不带for循环的程序写了一下。程序如下：import numpy as npimport pandas as pdtrain_data = np.array([[1, "S", -1], [1, "M", -1], [1, "M", 1],

2020-12-02 17:41:09 235

原创一个有趣的规划问题

最近看到了一个有趣的小问题，整理了一些自己的思考，对此做一个简单的总结。问题如下：我在某宝买了100袋乐事大波浪薯片，薯片到了菜鸟驿站，菜鸟驿站距离我家500米，我要把薯片全部拿回家。但是，我每次最多只能拿50袋，并且我嘴馋，只要手上有薯片，每走10米就要吃掉一袋。请问，我最多能把几袋薯片拿回家?假设：1.我中途可以把薯片放在地上，不会被人拿走2.我可以一次取一部分的快递3.为简化模型，考虑离散情况，我每次至少走10米，一包薯片必须吃完思路：最后剩下的薯片最多>吃掉的薯片最少>带

2020-11-20 15:06:14 313

原创 python安装包pip无法更新,pycharm无法下载包,阿里云无法安装

再次整理一下python 无法更新的问题。最近两天pycharm上需要用到新的包，但没法在pycharm里自行下载了。但去官网下wheel文件又很烦，所以专门花了一点时间解决这个问题。（新手比较菜）pycharm 没法下载新安装包有可能是pip没有更新到最新的版本。参考网络上的做法，通常是在控制台（cmd）上运行 python -m pip install --upgrade pip但是，...

2020-02-28 23:14:48 779

原创过时的淘宝数据爬取

为了整理一下以前的项目，将以前编写的爬虫程序上传。此项目为爬取淘宝上笔记本电脑价格、详细参数、销量等数据而编写。初期有效，但随后淘宝设立了相应反爬虫程序，此爬取方法已经失效。此爬取过程分两步，其一是爬取搜索页面所有的商品与其链接地址import reimport xlwtimport time import requestsimport pandas as pdfrom retryi...

2020-02-14 18:32:26 381

原创 pycharm无法使用之前的安装包

前两天，将原来使用的python移到了jetbrain系列的pycharm上。刚接触pycharm时因为每建立一个新工程都会重新建立环境，所以重复安装包会很麻烦。简单摸索以后发现，如果像我一样以前装过包的，可以设置使用什么样的环境里的包。这样可以避免重复安装。打开file-setting在project interpreter项中找到你原来包的安装目录，选定后点击apply,就可以应用原来...

2020-02-14 17:50:34 826

final_data2.csv

此数据来源于阿里天池数据集提供的开源数据，为作者按照用户名重新分类汇总整理后得到的数据。原始数据参考https://tianchi.aliyun.com/dataset/dataDetail?dataId=47&lang=zh-cn

2020-05-08

final_data.csv

2020-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

idiotic_bird的博客