Yi_jia_yi
码龄7年
关注
提问 私信
  • 博客:75,009
    75,009
    总访问量
  • 19
    原创
  • 1,642,791
    排名
  • 35
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:台湾省
  • 加入CSDN时间: 2018-01-04
博客简介:

Yi_jia_yi的博客

查看详细资料
个人成就
  • 获得16次点赞
  • 内容获得1次评论
  • 获得91次收藏
创作历程
  • 11篇
    2020年
  • 8篇
    2018年
成就勋章
TA的专栏
  • CV
    4篇
  • 软件工具
    1篇
  • AI(人工智能)
    2篇
  • 数据分析
    8篇
  • Excel
  • Python数据分析
    4篇
  • 统计学
    7篇
  • 爬虫
  • 人生感悟
  • Python
    1篇
  • Hexo
  • 搭建博客
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【学习笔记】统计学入门(5/7)——二项分布

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 五、二项分布1、二项分布的基本特征PS:两分类变量并非一定会服从二项分布Bernoulli试验:出现的结果只有两...
原创
发布博客 2018.07.19 ·
2743 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

动手学数据分析 task5

1、各模块作用?Image 模块提供了同名的类用来表示PIL的图像。Image模块还提供了许多工厂(factory)函数,包块从文件加载图像的函数,以及创建新图像的函数。numpy:支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。pandas 有两种数据类型:Series,DataFrame,pandas则是对上述数据类型的各类操作(基本操作、运算操作、特征类操作、关联类操作)matplotlib:可视化图形工具seaborn:是在matplotlib基础上面的封装,方便直
原创
发布博客 2020.08.28 ·
237 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动手学数据分析task4

最基本的可视化图案有哪些?分别适用于那些场景?1柱状图展示多个分类的数据变化和同类别各变量之间的比较情况。适用:对比分类数据。局限:分类过多则无法展示数据特点。相似图表:堆积柱状图。比较同类别各变量和不同类别变量总和差异。百分比堆积柱状图。适合展示同类别的每个变量的比例。2条形图类似柱状图,只不过两根轴对调了一下。适用:类别名称过长,将有大量空白位置标示每个类别的名称。局限:分类过多则无法展示数据特点 。相似图表:堆积条形图。比较同类别各变量和不同类别变量总和差异。百分比堆积
原创
发布博客 2020.08.25 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动手学数据分析 task3 数据重构

一、数据合并1、使用pd.concat(objs, axis=0, join=‘outer’, […])objs: series,dataframe构成的序列 listaxis: 需要合并链接的轴,0是行,1是列join:连接的方式 inner,或者outerlist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)result_up.head()2、使用DataFrame自带的方法join方法和a
原创
发布博客 2020.08.23 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动手学数据分析 task2

1、检索空缺值用np.nan VS None:2、dropna和fillna有哪些参数,分别如何使用呢?填充/替换缺失数据.fillna()清除缺失值:dropna()
原创
发布博客 2020.08.22 ·
208 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动手学数据分析task1

1、相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录import osos.getcwd()2、逐块读取read_csv()函数有一个chunkSize参数,通过指定一个chunk Size分块大小来读取文件,返回的是一个可迭代的对象Text FileReader为什么要逐块读取?电脑内存不足,不能一次性的读取时,此时就可以对csv文件进行分块读取。#写入代码chunker = pd.read_csv('train.csv', chunksize=1000)3、将
原创
发布博客 2020.08.17 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符编码识别_Task05模型集成

提高预测精度1、集成学习方法可提高预测精度,常见集成学习方法有:Stacking、Bagging、Boosting等2、数据集扩增(简称TTA)也可提高精度,对同一个样本预测三次再求平均3、实验可知,长度为5的字符样本非常少,将定长设置为4可提高精度...
原创
发布博客 2020.06.02 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符编码识别_Task04模型训练与验证

1 欠拟合和过拟合欠拟合:即模型没有很好地捕捉到数据特征,不能够很好地拟合数据;过拟合:即模型把数据学习的太彻底,导致测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。过拟合原因:常见是模型复杂度太高解决过拟合:构建一个与测试集尽可能分布相似的样本,训练过程不断验证模型在验证集上的精度,来控制模型的训练。因此可以划分验证集来进行验证,2 评估方法留出法:把数据集D划分为两个互斥的集合,其中一个是训练集,一个是测试集。书中给出的参考划分比例是,训练集66.6%~80%交叉验证
原创
发布博客 2020.05.30 ·
270 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符编码识别_Task03字符识别模型

1 CNN原理卷积神经网络CNN主要用于图像识别。神经网络前向传播过程:一般而言,输入的图像数据经过若干层卷积和池化处理,映射出特征向量/feature map,将特征向量传入全连接层中,得出分类识别的结果。当输出的结果与我们的期望值相符时,输出最后结果。卷积:作用是提取特征图池化:又称降采样/down_sampling,包括最大池化/max pooling、平均池化average pooling等,作用是降维全连接:将学到的“分布式特征表示”映射到样本标记空间;对前层是全连接的全连接层可以转化
原创
发布博客 2020.05.26 ·
236 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符编码识别_Task02数据读取与扩增

1 Python中读取数据的库:Pillow:Pillow是图像处理函式库PIL的一个分支;官方文档:https://pillow.readthedocs.io/en/stable/OpenCV:包含很多图像处理功能以及图像特征处理算法,如关键点监测、边缘检测和直线检测OpenCV官网:https://opencv.org/2 数据扩增方法数据扩充一般从图像的颜色、尺寸、形态、空间和像素等角度进行变换(torchvision为例)3 数据扩增库torchvision:扩充方法种类少、
原创
发布博客 2020.05.23 ·
205 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符编码识别_Task01赛题理解

赛题理解1 赛题了解赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。训练集数据包括3W张照片,验证集数据包括1W张照片,测试集A/B包括4W张照片,每张照片包括颜色图像和对应的编码类别和具体位置。所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。评价标准为准确率,选手提交结果与实际图片的
原创
发布博客 2020.05.20 ·
325 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

阿里天池新人赛_二手车交易价格预测

链接:https://tianchi.aliyun.com/competition/entrance/231784/informationtask2-EDA目录1 载入各种数据科学以及可视化库数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;其他2 载入数据载入训练集和测试集;3 数据总览简略观察数据;通过describ...
原创
发布博客 2020.03.24 ·
854 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

Machine Learning System(机器学习)

发布资源 2018.10.14 ·
pdf

Pycharm运行报错:Process finished with exit code -1073741515 (0xC0000135)

解决方法修改Python版本配置:    
原创
发布博客 2018.08.29 ·
9069 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

【学习笔记】统计学入门(7/7)——假设检验

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026 索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 七、假设检验1、做假设检验的目的:结果知规律,样本推总体1.1 方法参数估计:推估样本所在总体的特征。先判断是否正态分...
原创
发布博客 2018.08.12 ·
8890 阅读 ·
7 点赞 ·
0 评论 ·
27 收藏

【学习笔记】统计学入门(6/7)——参数估计与可信区间

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 六、抽样估计与可信区间 1、抽样误差与统计推断1.1 统计推断/统计估计(statiscal inference...
原创
发布博客 2018.07.20 ·
7874 阅读 ·
1 点赞 ·
0 评论 ·
17 收藏

【学习笔记】统计学入门(4/7)——正态分布

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正态分布 二项分布 参数估计与可信区间 假设检验 四、正态分布1、从样本频数分布到概率分布     直方图/频率图的性质:(1)直条的面积实质上是频率(或者百分比...
原创
发布博客 2018.07.19 ·
7429 阅读 ·
0 点赞 ·
0 评论 ·
14 收藏

【学习笔记】统计学入门(3/7 )——分类变量的统计描述

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026索引——基本概念连续变量的统计描述分类变量的统计描述正太分布二项分布参数估计与可信区间假设检验...
原创
发布博客 2018.07.15 ·
10766 阅读 ·
0 点赞 ·
0 评论 ·
14 收藏

【学习笔记】统计学入门(2/7)——连续变量的统计描述

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正太分布 二项分布 参数估计与可信区间 假设检验  二、连续变量的统计描述 1、统计方法     1.1 频数表     组数:不宜过多或过少,保证大多数...
原创
发布博客 2018.07.15 ·
7669 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

【学习笔记】统计学入门(1/7)——基本概念

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026  索引——基本概念 连续变量的统计描述 分类变量的统计描述 正太分布 二项分布 参数估计与可信区间 假设检验 一、基本概念 1、个体、变量与变异     个体:统计分析中的观察对象或者观察单位          变量:对...
原创
发布博客 2018.07.14 ·
1878 阅读 ·
0 点赞 ·
0 评论 ·
12 收藏
加载更多