毒吻可积-CSDN博客

原创 Python第三方库下载超时，可选择常用的国内镜像

pip install libName是在Python的官方源pypi.python.org/pypi 下载，有时会因为超时会抛异常无法下载成功。所以可以选择一些比较稳定速度比较快的国内镜像来下载python库阿里pip install -i https://mirrors.aliyun.com/pypi/simple/ xxx豆瓣pip install -i https://pypi.douban.com/simple xxx清华大学pip install -i https://p.

2020-10-11 10:24:12 499 1

原创 pandas小练习

ex1 = pd.read_csv('work/端午粽子数据.csv')ex1.columnsIndex(['标题', ' 价格', '付款人数', '店铺', '发货地址 '], dtype='object')ex1.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 4403 entries, 0 to 4402Data columns (total 5 columns): # Column Non-Nul.

2020-07-01 21:53:00 363

原创 pandas处理时序数据

快速浏览时序的创建四类时间变量Date times（时间点/时刻）Date offsets（相对时间差）时序的索引及属性Reference时序的创建四类时间变量Date times（时间点/时刻）Pandas在时间点建立的输入格式规定上给了很大的自由度，下面的语句都能正确建立同一时间点:pd.to_datetime('2020.1.1')pd.to_datetime('2020 1.1')pd.to_datetime('2020 1 1')pd.to_datetime('2020 1-1'

2020-06-28 19:20:06 408

原创 pandas分类数据category

快速浏览分类变量的创建用Series创建对DataFrame指定类型创建利用内置Categorical类型创建利用cut函数创建分类变量的结构与性质describe方法categories和ordered属性利用set_categories修改类别利用rename_categories修改类别利用add_categories添加利用remove_categories移除删除元素值未出现的分类类型分类变量的排序一般来说会将一个序列转为有序变量，可以利用as_ordered方法退化为无序变量，只需要使用as_u

2020-06-25 21:42:45 1511

原创 pandas文本str.split,cat,replace,extract,extractall,contains,match,strip,swapcase,capitalize,isnumeric

pandas处理文本数据快速浏览string类型的性质str.split方法str.cat方法str.replace用法str.extract方法str.extractall方法str.containsstr.matchstr.stripstr.swapcasestr.capitalizeisnumeric问题与练习问题练习Referencestring类型的性质string与object的区别① 字符存取方法（string accessor methods，如str.count）会返回相应数据的N

2020-06-23 20:16:41 497

原创 pandas缺失数据isna,notna,np.nan,None,NaT,Nullable,NA,convert_dtypes,fillna,dropna,interpolate

快速浏览缺失数据的统计与转换isna和notna方法np.nan与None与NaT缺失数据的运算与分组缺失数据的填充与剔除fillna方法与dropna方法插值方法（线性插值等）问题与练习问题练习Reference缺失数据的统计与转换#从清华镜像拉装1.0.5版本的Pandas!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas==1.0.5import pandas as pdimport numpy as npdf

2020-06-22 12:52:07 7597 1

原创 win10下python3.7安装gsutil从Google Storage for Developers下载数据

偶然之间，需要在Google Storage for Developers下载一些文件，由于有墙前期遇到一些困难，但是最后成功得有些简单。要是可以打开的话，可以看看官方下载说明了解更多GSUtil安装方式，本文只针对Windows使用pip安装gsutil。网上有说法要用python2.x，不过我看官方说明也是支持3.x的，本文用的3.7。本文以 gs://clusterdata-2011-2/为例。查看文件夹下的内容gsutil ls gs://clusterdata-2011-2/；将文件

2020-06-07 07:33:45 3592 6

原创机器学习备忘录之支持向量机(SVM)几个问题

在空间上线性可分的两类点，分别向SVM超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗？是否存在一组参数使SVM训练误差为0？训练误差为0的SVM分类器一定存在吗？加入松弛变量的SVM的训练误差可以为0吗？1.对于任意线性可分的两组点，它们在SVM分类超平面上的投影都是线性不可分的。（SVM的分类结果仅依赖于支持向量）2.存在一组参数使SVM训练误差为0。3.训练误差为0的SVM分类器存在。4.并不一定能得到训练误差为0的模型。参考：机器学习统计学习方法百面机器学习算.

2020-05-29 20:58:32 762

原创机器学习备忘录之模型评估

度量指标评估模型的好坏需要一个度量方法，选择不同的度量方法可能会导致最后对模型的选择不同。准确率(Accuracy)：分类正确的样本占总样本个数的比例。精确率(Precision)：分类正确的正样本个数占分类器判定为正样本个数的比例。召回率(Recall)：分类正确的正样本个数占真正的正样本个数的比例。当不同类别的样本比例非常不均衡时，将准确率作为分类性能的指标非常局限，可以使用更加有效的平均准确率(每个类别下的样本准确率的算数平均)作为模型评估的指标。精确率更为保守，在很有把握时才将样本预测

2020-05-27 15:15:08 353

原创机器学习备忘录之图像数据不足时的处理方法

一个模型能提供的信息一般来源于两个方面一是训练数据中蕴含的信息；二是模型的形成过程中(包括构造、学习、推理等)人提供的先验信息。训练不足时则要提供更多先验信息。先验信息作用在模型上，如让模型采用特定的内在结构、条件假设或添加一些约束条件。先验信息也可以作用在数据集上，如根据特定的先验假设调整、变换和扩展数据集，让其展现出更多更有用的信息。参考：百面机器学习算法工程师带你去面试百面机器学习第一章特征工程百面机器学习｜第一章特征工程知识点...

2020-05-26 10:56:39 287

原创机器学习备忘录之文本表示模型

词袋模型(Bag of Words)和N-gram模型，TF-IDF(Term Frequency-Inverse Document Frequency)词袋模型是最基础的文本表示模型。将文章以词为单位切分开，忽略词的出现顺序，将文章表示成一个长向量（每一维代表一个单词，该维的权重表示重要程度）。常用TF-IDF来计算权重。某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为该词具有很好的类别区分能力，适合用来分类。TF(t,d)是词频，表示关键词t在文章d中出现的频率。IDF是逆向

2020-05-26 10:19:33 363

原创机器学习备忘录之组合特征

高维组合特征的处理组合特征是指把一阶离散特征两两组合，构成高阶组合特征。这里的维度就是2*2=4。可是如果考用户ID，那么参数规模非常大。此时考虑对用户ID用低维向量表示。组合特征简单地将特征两两组合容易存在参数过多、过拟合等问题。上面提出的是一种降维的思考，下面说的是基于决策树的组合特征寻找方法。先建立决策树，根据决策树进行特征组合，可以减少无用的特征组合方式。参考：百面机器学习算法工程师带你去面试百面机器学习｜第一章特征工程知识点...

2020-05-26 09:38:02 637

原创机器学习备忘录之类别特征

类别型特征指在有限选项内取值的特征。通常为字符串形式。决策树等少数模型能直接处理字符串形式的输入，逻辑回归、SVM等类别型特征必须处理成数值型特征才能正确工作。常用方法序号编码(Ordinal Encoding)有大小关系的数据用序号编码，保留数据之间的大小关系（程度）。独热编码(One-hot Encoding)one-hot编码，类别间不具有大小关系的特征，生成的是多维稀疏向量，可使用向量的稀疏表示来节省空间；配合特征选择，降低维度。二进制编码(Binary Encoding)先序号，再

2020-05-26 09:18:31 293

原创机器学习备忘录之特征归一化

未进行特征归一化可能会导致什么问题？未进行特征归一化的数据分析结果会倾向于数值差别较大的的特征。常用方法线性函数归一化(Min-Max scaling)线性函数归一化(Min-Max scaling)将原始数据线性化的方法转换到[0,1]的范围.缺点是抗干扰能力弱，受离群值影响比较大.零均值标准化(Z-score standardization)零均值标准化(Z-score standardization)将原始数据集归一化为均值为0且方差1的数据集.该种归一化方式要求原始数据的分布可以近

2020-05-25 22:38:09 217

原创 Win10+Anaconda搭建torch1.3.1gpu环境使用jupyter notebook

在Anaconda搭建虚拟环境conda create -n py37_torch131 python=3.7激活环境并从清华源加载所需的库conda activate py37_torch131conda install pytorch=1.3.1 torchvision cudatoolkit=10.0 pip install jupyter tqdm opencv-python matplotlib pandas -i https://pypi.tuna.tsinghua.edu.cn/

2020-05-15 08:45:44 739

原创 Win10+Anaconda搭建tensorflow-gpu环境使用jupyter notebook

花了好长时间，感觉走了很多冤枉路了，写一篇记录一下。Nvidia显卡，如果没有英伟达的显卡就不能装了首先是上英伟达官网看看卡符合标准不你的英伟达GPU是否支持CUDA比如965M的算力是5.2，官网要求是3.5或更高，所以965M的卡是可以使用的噢~本地显卡的驱动是多少呐根据上面显示的CUDA至少9.0也就是384.x。从NVIDIA控制面板查看自己的驱动版本选择“系统信息”——“组件”，如果这里小于10.0建议升级。一开始我也很苦恼，因为我电脑比较旧，只是8.0.0，头疼。折腾浪

2020-05-13 14:53:34 2038

原创 conda切换为清华源安装TensorFlow2

配置国内清华源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/# 搜索时显示通道地址conda config --set show_channel_urls yes如果需要删除源可以先检查Anaconda的co

2020-05-13 11:20:04 1918

原创解决socket.timeout:The read operation timed out

windows下在使用清华源超时pip install -U tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple。遇到了问题：socket.timeout:The read operation timed out大概是由于网速不稳定，下载过慢，超出默认时间。修改方法:windows下输入 pip --default-timeout=100 install 包名这里我使用的是pip --default-timeout=1000 ins

2020-05-13 10:42:38 9452

原创解决Failed calling sys.interactivehook

Failed calling sys.__interactivehook__Traceback (most recent call last): File "C:\Users\11050\Anaconda3\lib\site.py", line 439, in register_readline readline.read_history_file(history) File "...

2020-05-02 12:17:06 5782 11

原创 win10下python3.7安装cvxpy库与cvxopt

CVXPY是斯坦福大学凸优化组开发的一个Python软件包，方便用户以数学形式定义凸优化模型。它是一种可以内置于Python中的模型编程语言，可以自动转化问题为标准形式，调用 solver，解包结果集。win10 + Anaconda python3.7准备工作，这一步可有可无（如果后面安装使用出问题，那就需要回过头来做这一步骤）Visual Studio C++ compiler不过也...

2020-05-02 11:54:47 2285

原创 pandas综合小练习

一、2002 年-2018 年上海机动车拍照拍卖问题(1) 哪一次拍卖的中标率首次小于 5%？ex1 = pd.read_csv('work/task6/2002年-2018年上海机动车拍照拍卖.csv')ex1['%'] = ex1['Total number of license issued']/ex1['Total number of applicants']print(ex1[...

2020-05-01 23:14:39 350

原创 matlab使用yalmip工具箱

使用yalmip工具箱可以像书写数学模型那样输入规划问题的约束和目标函数，非常方便。以下为在Matlab R2018a下添加yalmip并简单使用的例子一、下载解压下载地址：https://yalmip.github.io/download/我下载后解压在D盘二、添加路径注意！！！路径中最好没有中文选择“添加并包含子文件夹”，将 yalmip 的路径添加进去在命令行中输入whi...

2020-04-30 11:27:00 17863 11

原创 python数据爬取、分析与内容审核基于PaddlePaddle

这次要做的就是分四步完成爬取评论数据并进行可视化的评论内容分析。先展示一下预期效果第一步：爱奇艺《青春有你2》评论数据爬取(参考链接：https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)爬取任意一期正片视频下评论第二步：词频统计并可视化展示数据预处理：清理清洗评...

2020-04-28 16:56:32 1787

原创 pandas合并 append,assign,combine,update,concat,merge,join

快速浏览阶段总结一、append与assign1.append方法（加行）（a）append利用序列添加行（必须指定name）（b）append用DataFrame添加表(多行)2.assign方法（加列）二、combine与update（表的填充）1.comine方法（a）填充对象（b）一些例子（c）combine_first方法2. update方法（a）三个特点（b）例子三、concat方法...

2020-04-27 21:20:56 744

原创 pandas变形透视表 pivot,pivot_table,crosstab,melt,stack,unstack,get_dummies,factorize

快速浏览pandas简单介绍和本文说明一、透视表的基本二、crosstab（交叉表）三、melt函数三、stack函数四、哑变量与因子化1. Dummy Variable（哑变量）2. factorize方法问题与练习参考pandas简单介绍和本文说明pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地...

2020-04-26 19:36:33 565

原创 python均匀分布

输出一个均匀分布[1,2]的浮点数import randomrandom.seed(1)random.uniform(1, 2)输出一个均匀分布[1,2]的浮点数（此时没有设seed，输出不固定）import random#random.seed()random.uniform(1, 2)输出一千个均匀分布[0,1)的浮点数（此时没有设seed，输出不固定）np.random...

2020-04-25 20:09:42 9151

原创 python画饼图matplotlib

先展示一个转载来的例子，再放一个实战的。python_使用matplotlib画饼状图（pie）from matplotlib import pyplot as plt #调节图形大小，宽，高plt.figure(figsize=(6,9))#定义饼状图的标签，标签是列表labels = [u'第一部分',u'第二部分',u'第三部分']#每个标签占多大，会自动去算百分比size...

2020-04-24 20:04:50 482

原创 python网络爬虫小例子

python爬百度百科的《青春有你2》选手信息爬虫的过程：1.发送请求（requests模块）2.获取响应数据（服务器返回）3.解析并提取数据（BeautifulSoup查找或者re正则）4.保存数据即模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库用到的主要库requests是python实...

2020-04-23 22:01:07 338

原创 pandas分组groupby(agg,transform),apply

快速浏览pandas简单介绍和本文说明一、SAC过程二、groupby函数1. groupby分组函数的基本内容参考pandas简单介绍和本文说明pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它...

2020-04-23 18:49:00 1599

原创 python查找特定名称文件

遍历”Day1-homework”目录下文件；找到文件名包含“2020”的文件；将文件名保存到数组result中；按照序号、文件名分行打印输出。文件夹上传于此。#导入OS模块import os#待搜索的目录路径path = "Day1-homework"#待搜索的名称filename = "2020"#定义保存结果的数组result = []def findfiles(...

2020-04-22 15:55:37 1551

原创 Python输出 9*9 乘法口诀表

def table(): #乘法口诀表 for i in range(9): for j in range(i+1): if (i+1)*(j+1)>9: print('{}*{}={}'.format(j+1,i+1,(i+1)*(j+1)),end=' ') else: ...

2020-04-22 15:13:34 2336

原创 pandas索引(loc,[],iloc,query,at/iat,cut,set_index,sort_index,reset_index,where,drop_duplicates...)

快速浏览pandas简单介绍和本系列说明一、单级索引1. 读取csv格式的新发现2. loc方法、iloc方法、[ ]操作符Referencepandas简单介绍和本系列说明pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函...

2020-04-21 21:59:33 631

原创 2020京东社招笔试编程题-数据分析岗

一个朋友参加的2020京东社招数据分析岗的笔试，有两道编程题。留了第一题，大意就是根据每日限制如何出售股票使得总亏损最少。import mathwhile 1: nm=list(map(int,input().split(' '))) n=nm[0] m=nm[1] a=sorted(list(map(int,input().split(' ')))) ...

2020-04-19 18:55:56 1145

原创 pandas基础——文件读取与写入、基本数据结构、常用基本函数、排序、总结练习

快速浏览pandas简单介绍和本系列说明一、csv、txt、xls或xlsx文件读取与写入1. 读取与写入csv格式2. 读取与写入txt格式3. 读取与写入xls或xlsx格式二、基本数据结构1. SeriesSeries创建访问Series属性Series调用方法2. DataFrameDataFrame创建DataFrame修改行/列名DataFrame调用属性和方法“索引对齐特性”Data...

2020-04-19 16:04:58 1208

原创零基础入门数据挖掘Task5

Datawhale 零基础入门数据挖掘-Task5 模型融合快速浏览Datawhale 零基础入门数据挖掘-Task5 模型融合前提回顾你是谁?你从哪里来?你往何处去?最后时刻Reference前提回顾赛题以二手车市场为背景，要求选手预测二手汽车的交易价格，这是一个典型的回归问题。通过这道赛题来引导大家走进AI数据竞赛的世界，主要针对于于竞赛新人进行自我练习、自我提高。“零基础入门数据...

2020-04-04 08:29:01 303

原创零基础入门数据挖掘Task4

快速浏览前提回顾建模数据分析竞赛常用函数整理调参lgb是什么lgb怎么调展望Reference前提回顾赛题以二手车市场为背景，要求选手预测二手汽车的交易价格，这是一个典型的回归问题。通过这道赛题来引导大家走进AI数据竞赛的世界，主要针对于于竞赛新人进行自我练习、自我提高。“零基础入门数据挖掘 - 二手车交易价格预测”是阿里天池的一个入门比赛，这个比赛问题是一个回归问题，评价标准为平均绝对...

2020-04-01 14:40:32 336

原创 Python实现leetcode 2.两数相加

2020/1/29 leetcode 2.两数相加题目原题地址https://leetcode-cn.com/problems/add-two-numbers/解答Python实现单向无序链表（Singly linked list）可参考链接# Definition for singly-linked list.# class ListNode:# def __init__...

2020-03-31 11:46:16 206

原创 Docker练习初学者的全程记录(Windows10)

快速浏览开场白安装 Docker 环境开通阿里云容器镜像服务构建镜像并推送提交验证运行结果Reference开场白这次是以阿里天池的一个入门比赛“【入门】Docker练习场”为例分享，实际上内容是我之前写过的并分享在天池的。不过我突然发现那一篇没有显示出我的截图，不懂是什么原因，所以就在此再分享一下。Build, Ship and Run Any App, Anywhere.Docke...

2020-03-29 16:10:26 611

原创 Python实现leetcode 1.两数之和

2020/1/29 leetcode 1.两数之和题目传送门：此题链接https://leetcode-cn.com/problems/two-sum/初解一拿到就是比较无脑的死算，从前往后先选定一个数字再凑一凑，看看其和是不是所期望的和。提示1：A really brute force way would be to search for all possible pairs of ...

2020-03-28 17:25:43 346

原创零基础入门数据挖掘Task3

Datawhale零基础入门数据挖掘-Task3工程特征

2020-03-27 19:55:30 493 2

pandas练习数据集.zip

cn_stopwords与simhei.ttf

Day1-homework.zip

空空如也