一些基础分享
一些来自于各个角落的基础分享
毒吻可积
这个作者很懒,什么都没留下…
展开
-
Python第三方库下载超时,可选择常用的国内镜像
pip install libName是在Python的官方源pypi.python.org/pypi 下载,有时会因为超时会抛异常无法下载成功。所以可以选择一些比较稳定速度比较快的国内镜像来下载python库阿里pip install -i https://mirrors.aliyun.com/pypi/simple/ xxx豆瓣pip install -i https://pypi.douban.com/simple xxx清华大学pip install -i https://p.原创 2020-10-11 10:24:12 · 438 阅读 · 1 评论 -
pandas小练习
ex1 = pd.read_csv('work/端午粽子数据.csv')ex1.columnsIndex(['标题', ' 价格', '付款人数', '店铺', '发货地址 '], dtype='object')ex1.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 4403 entries, 0 to 4402Data columns (total 5 columns): # Column Non-Nul.原创 2020-07-01 21:53:00 · 322 阅读 · 0 评论 -
win10下python3.7安装gsutil从Google Storage for Developers下载数据
偶然之间,需要在Google Storage for Developers下载一些文件,由于有墙前期遇到一些困难,但是最后成功得有些简单。要是可以打开的话,可以看看官方下载说明了解更多GSUtil安装方式,本文只针对Windows使用pip安装gsutil。网上有说法要用python2.x,不过我看官方说明也是支持3.x的,本文用的3.7。本文以 gs://clusterdata-2011-2/为例。查看文件夹下的内容gsutil ls gs://clusterdata-2011-2/;将文件原创 2020-06-07 07:33:45 · 3435 阅读 · 5 评论 -
机器学习备忘录之支持向量机(SVM)几个问题
在空间上线性可分的两类点,分别向SVM超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?是否存在一组参数使SVM训练误差为0?训练误差为0的SVM分类器一定存在吗?加入松弛变量的SVM的训练误差可以为0吗?1.对于任意线性可分的两组点,它们在SVM分类超平面上的投影都是线性不可分的。(SVM的分类结果仅依赖于支持向量)2.存在一组参数使SVM训练误差为0。3.训练误差为0的SVM分类器存在。4.并不一定能得到训练误差为0的模型。参考:机器学习统计学习方法百面机器学习 算.原创 2020-05-29 20:58:32 · 714 阅读 · 0 评论 -
机器学习备忘录之模型评估
度量指标评估模型的好坏需要一个度量方法 ,选择不同的度量方法可能会导致最后对模型的选择不同。准确率(Accuracy):分类正确的样本占总样本个数的比例。精确率(Precision):分类正确的正样本个数占分类器判定为正样本个数的比例。召回率(Recall):分类正确的正样本个数占真正的正样本个数的比例。当不同类别的样本比例非常不均衡时,将准确率作为分类性能的指标非常局限,可以使用更加有效的平均准确率(每个类别下的样本准确率的算数平均)作为模型评估的指标。精确率更为保守,在很有把握时才将样本预测原创 2020-05-27 15:15:08 · 321 阅读 · 0 评论 -
机器学习备忘录之图像数据不足时的处理方法
一个模型能提供的信息一般来源于两个方面一是训练数据中蕴含的信息;二是模型的形成过程中(包括构造、学习、推理等)人提供的先验信息。训练不足时则要提供更多先验信息。先验信息作用在模型上,如让模型采用特定的内在结构、条件假设或添加一些约束条件。先验信息也可以作用在数据集上,如根据特定的先验假设调整、变换和扩展数据集,让其展现出更多更有用的信息。参考:百面机器学习 算法工程师带你去面试百面机器学习 第一章 特征工程百面机器学习|第一章特征工程知识点...原创 2020-05-26 10:56:39 · 261 阅读 · 0 评论 -
机器学习备忘录之文本表示模型
词袋模型(Bag of Words)和N-gram模型,TF-IDF(Term Frequency-Inverse Document Frequency)词袋模型是最基础的文本表示模型。将文章以词为单位切分开,忽略词的出现顺序,将文章表示成一个长向量(每一维代表一个单词,该维的权重表示重要程度)。常用TF-IDF来计算权重。某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为该词具有很好的类别区分能力,适合用来分类。TF(t,d)是词频,表示关键词t在文章d中出现的频率。IDF是逆向原创 2020-05-26 10:19:33 · 338 阅读 · 0 评论 -
机器学习备忘录之组合特征
高维组合特征的处理组合特征是指把一阶离散特征两两组合,构成高阶组合特征。这里的维度就是2*2=4。可是如果考用户ID,那么参数规模非常大。此时考虑对用户ID用低维向量表示。组合特征简单地将特征两两组合容易存在参数过多、过拟合等问题。上面提出的是一种降维的思考,下面说的是基于决策树的组合特征寻找方法。先建立决策树,根据决策树进行特征组合,可以减少无用的特征组合方式。参考:百面机器学习 算法工程师带你去面试百面机器学习|第一章特征工程知识点...原创 2020-05-26 09:38:02 · 597 阅读 · 0 评论 -
机器学习备忘录之类别特征
类别型特征指在有限选项内取值的特征。通常为字符串形式。决策树等少数模型能直接处理字符串形式的输入,逻辑回归、SVM等类别型特征必须处理成数值型特征才能正确工作。常用方法序号编码(Ordinal Encoding)有大小关系的数据用序号编码,保留数据之间的大小关系(程度)。独热编码(One-hot Encoding)one-hot编码,类别间不具有大小关系的特征,生成的是多维稀疏向量,可使用向量的稀疏表示来节省空间;配合特征选择,降低维度。二进制编码(Binary Encoding)先序号,再原创 2020-05-26 09:18:31 · 264 阅读 · 0 评论 -
机器学习备忘录之特征归一化
未进行特征归一化可能会导致什么问题?未进行特征归一化的数据分析结果会倾向于数值差别较大的的特征。常用方法线性函数归一化(Min-Max scaling)线性函数归一化(Min-Max scaling)将原始数据线性化的方法转换到[0,1]的范围.缺点是抗干扰能力弱,受离群值影响比较大.零均值标准化(Z-score standardization)零均值标准化(Z-score standardization)将原始数据集归一化为均值为0且方差1的数据集.该种归一化方式要求原始数据的分布可以近原创 2020-05-25 22:38:09 · 197 阅读 · 0 评论 -
Win10+Anaconda搭建torch1.3.1gpu环境使用jupyter notebook
在Anaconda搭建虚拟环境conda create -n py37_torch131 python=3.7激活环境并从清华源加载所需的库conda activate py37_torch131conda install pytorch=1.3.1 torchvision cudatoolkit=10.0 pip install jupyter tqdm opencv-python matplotlib pandas -i https://pypi.tuna.tsinghua.edu.cn/原创 2020-05-15 08:45:44 · 686 阅读 · 0 评论 -
Win10+Anaconda搭建tensorflow-gpu环境使用jupyter notebook
花了好长时间,感觉走了很多冤枉路了,写一篇记录一下。Nvidia显卡,如果没有英伟达的显卡就不能装了首先是上英伟达官网看看卡符合标准不你的英伟达GPU是否支持CUDA比如965M的算力是5.2,官网要求是3.5或更高,所以965M的卡是可以使用的噢~本地显卡的驱动是多少呐根据上面显示的CUDA至少9.0也就是384.x。从NVIDIA控制面板查看自己的驱动版本选择“系统信息”——“组件”,如果这里小于10.0建议升级。一开始我也很苦恼,因为我电脑比较旧,只是8.0.0,头疼。折腾浪原创 2020-05-13 14:53:34 · 2011 阅读 · 0 评论 -
conda切换为清华源安装TensorFlow2
配置国内清华源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/# 搜索时显示通道地址conda config --set show_channel_urls yes如果需要删除源可以先检查Anaconda的co原创 2020-05-13 11:20:04 · 1881 阅读 · 0 评论 -
解决socket.timeout:The read operation timed out
windows下在使用清华源超时pip install -U tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple。遇到了问题:socket.timeout:The read operation timed out大概是由于网速不稳定,下载过慢,超出默认时间。修改方法:windows下输入 pip --default-timeout=100 install 包名这里我使用的是pip --default-timeout=1000 ins原创 2020-05-13 10:42:38 · 9226 阅读 · 0 评论 -
解决Failed calling sys.__interactivehook__
Failed calling sys.__interactivehook__Traceback (most recent call last): File "C:\Users\11050\Anaconda3\lib\site.py", line 439, in register_readline readline.read_history_file(history) File "...原创 2020-05-02 12:17:06 · 5563 阅读 · 11 评论 -
win10下python3.7安装cvxpy库与cvxopt
CVXPY是斯坦福大学凸优化组开发的一个Python软件包,方便用户以数学形式定义凸优化模型。它是一种可以内置于Python中的模型编程语言,可以自动转化问题为标准形式,调用 solver,解包结果集。win10 + Anaconda python3.7准备工作,这一步可有可无(如果后面安装使用出问题,那就需要回过头来做这一步骤)Visual Studio C++ compiler不过也...原创 2020-05-02 11:54:47 · 2126 阅读 · 0 评论 -
pandas综合小练习
一、2002 年-2018 年上海机动车拍照拍卖问题(1) 哪一次拍卖的中标率首次小于 5%?ex1 = pd.read_csv('work/task6/2002年-2018年上海机动车拍照拍卖.csv')ex1['%'] = ex1['Total number of license issued']/ex1['Total number of applicants']print(ex1[...原创 2020-05-01 23:14:39 · 307 阅读 · 0 评论 -
matlab使用yalmip工具箱
使用yalmip工具箱可以像书写数学模型那样输入规划问题的约束和目标函数,非常方便。以下为在Matlab R2018a下添加yalmip并简单使用的例子一、下载解压下载地址:https://yalmip.github.io/download/我下载后解压在D盘二、添加路径注意!!!路径中最好没有中文选择“添加并包含子文件夹”,将 yalmip 的路径添加进去在命令行中输入whi...原创 2020-04-30 11:27:00 · 17486 阅读 · 11 评论 -
python数据爬取、分析与内容审核基于PaddlePaddle
这次要做的就是分四步完成爬取评论数据并进行可视化的评论内容分析。先展示一下预期效果第一步:爱奇艺《青春有你2》评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7e0d1e30c494622af777f4ba39)爬取任意一期正片视频下评论第二步:词频统计并可视化展示数据预处理:清理清洗评...原创 2020-04-28 16:56:32 · 1710 阅读 · 0 评论 -
python均匀分布
输出一个均匀分布[1,2]的浮点数import randomrandom.seed(1)random.uniform(1, 2)输出一个均匀分布[1,2]的浮点数(此时没有设seed,输出不固定)import random#random.seed()random.uniform(1, 2)输出一千个均匀分布[0,1)的浮点数(此时没有设seed,输出不固定)np.random...原创 2020-04-25 20:09:42 · 9066 阅读 · 0 评论 -
python画饼图matplotlib
先展示一个转载来的例子,再放一个实战的。python_使用matplotlib画饼状图(pie)from matplotlib import pyplot as plt #调节图形大小,宽,高plt.figure(figsize=(6,9))#定义饼状图的标签,标签是列表labels = [u'第一部分',u'第二部分',u'第三部分']#每个标签占多大,会自动去算百分比size...原创 2020-04-24 20:04:50 · 447 阅读 · 0 评论 -
python网络爬虫小例子
python爬百度百科的《青春有你2》选手信息爬虫的过程:1.发送请求(requests模块)2.获取响应数据(服务器返回)3.解析并提取数据(BeautifulSoup查找或者re正则)4.保存数据即模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库用到的主要库requests是python实...原创 2020-04-23 22:01:07 · 312 阅读 · 0 评论 -
python查找特定名称文件
遍历”Day1-homework”目录下文件;找到文件名包含“2020”的文件;将文件名保存到数组result中;按照序号、文件名分行打印输出。文件夹上传于此。#导入OS模块import os#待搜索的目录路径path = "Day1-homework"#待搜索的名称filename = "2020"#定义保存结果的数组result = []def findfiles(...原创 2020-04-22 15:55:37 · 1511 阅读 · 0 评论 -
Python输出 9*9 乘法口诀表
def table(): #乘法口诀表 for i in range(9): for j in range(i+1): if (i+1)*(j+1)>9: print('{}*{}={}'.format(j+1,i+1,(i+1)*(j+1)),end=' ') else: ...原创 2020-04-22 15:13:34 · 2282 阅读 · 0 评论 -
2020京东社招笔试编程题-数据分析岗
一个朋友参加的2020京东社招数据分析岗的笔试,有两道编程题。留了第一题,大意就是根据每日限制如何出售股票使得总亏损最少。import mathwhile 1: nm=list(map(int,input().split(' '))) n=nm[0] m=nm[1] a=sorted(list(map(int,input().split(' ')))) ...原创 2020-04-19 18:55:56 · 1105 阅读 · 0 评论 -
Docker练习初学者的全程记录(Windows10)
快速浏览开场白安装 Docker 环境开通阿里云容器镜像服务构建镜像并推送提交验证运行结果Reference开场白这次是以阿里天池的一个入门比赛“【入门】Docker练习场”为例分享,实际上内容是我之前写过的并分享在天池的。不过我突然发现那一篇没有显示出我的截图,不懂是什么原因,所以就在此再分享一下。Build, Ship and Run Any App, Anywhere.Docke...原创 2020-03-29 16:10:26 · 573 阅读 · 0 评论