自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 常用Linux命令总结

常用Linux命令总结一、文件及目录操作1.1 cd命令1.2 pwd命令1.3 ls命令1.4 cp 命令1.5 mv命令1.6 rm 命令二、查看文件内容2.1 cat命令三、文件搜索3.1. find命令四、文件的权限 - 使用 "+" 设置权限,使用 "-" 用于取消4.1. chmod 命令4.2 chown 命令4.3 chgrp 命令五、文本处理5.1. grep 命令5.2 paste 命令5.3 sort 命令5.4 comm 命令六、打包和压缩文件6.1 tar 命令七、系统和关机 (

2021-04-12 17:02:58 494 1

原创 天池nlp赛事之新闻文本分类学习实践

天池nlp赛事之新闻文本分类学习实践一、赛题理解一、赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。1.1 赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育

2020-07-21 10:06:20 877 2

原创 关于机器学习算法的几个思考

关于机器学习算法的几个思考一、机器学习的应用领域二、机器学习的基本原理2.1 Hoaffding不等式理论及PAC原理2.2 No Free Lunch Theorem(NFL原理)2.3 奥卡姆剃刀原理2.4 数据分布相同2.5 尽量避免窥探数据三、机器学习的几个关键问题3.1 机器学习的分类3.2 机器学习的可行性3.3 过拟合3.4 成长函数及断点3.5 VC维3.6 Dropout3.7 正则化3.8 Validation3.9 预测误差及Bias(偏差)、variance(方差)和 error(噪

2020-07-08 10:47:31 1082

原创 pandas综合练习

pandas综合练习先这样吧,要考试没时间做了,后边之后补上…

2020-07-01 21:09:06 207

原创 基于pandas时序数据学习笔记

基于pandas时序数据学习笔记

2020-06-29 19:52:28 168

原创 pandas分类数据处理学习笔记

pandas分类数据处理学习笔记

2020-06-27 16:34:04 208

原创 基于pandas的文本数据(字符串)处理

基于pandas的文本数据(字符串)处理一、String类型的性质1.1 string与object的区别1.2 string类型的转换二、拆分与拼接三、 替换四、子串匹配与提取4.1 str.extract方法4.2 str.extractall方法五、常用字符串方法1. 过滤型方法2. isnumeric方法一、String类型的性质1.1 string与object的区别string类型和object不同之处有三:字符存取方法(string accessor methods,如str.cou

2020-06-26 21:31:45 781

原创 基于pandas的缺失数据分析

基于pandas的缺失数据分析

2020-06-23 20:12:30 124

原创 零基础CV学习———基于街景字符编码识别

零基础CV学习———基于街景字符编码识别一、赛题理解1.1 赛题数据1.2 评测指标1.3 数据读取1.4 解题思路一、赛题理解本次赛题虽然是一个简单的字符识别问题,但有多种解法可以使用到计算机视觉领域中的各个模型。赛题名称:零基础入门CV之街道字符识别赛题目标:通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。赛题任务:赛题以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。赛题数据采用公开数据集SV

2020-05-20 19:52:18 722

原创 pandas学习综合练习

pandas学习综合练习一、2002年-2018年上海机动车拍照拍卖分析一、2002年-2018年上海机动车拍照拍卖分析df_car = pd.read_csv('data1/2002年-2018年上海机动车拍照拍卖.csv')##1df = df_car.copy()df['percent'] = df.apply(lambda x:x['Total number of license...

2020-05-01 23:25:52 241

原创 python之pandas数据合并操作

python之pandas数据合并操作一、append与assign1.1 append方法1.2 assign方法二、combine与update2.1 combine2.2 update方法三、concat方法四、merge与join4.1 merge函数4.2 join方法一、append与assign1.1 append方法利用序列添加行(必须指定name)df_append =...

2020-04-30 23:48:24 1459

原创 python之pandas数据变形操作

python之pandas数据变形操作一、透视表1.1 pivot1.2 pivot_table1.3 交叉表二、其他变形方法2.1 melt2.2 压缩与展开三、哑变量与因子化3.1 Dummy Variable(哑变量)3.2 factorize方法import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv'...

2020-04-28 22:32:25 1031

原创 python之pandas分组操作总结

python之pandas分组操作总结一、SAC过程二、groupby函数2.1 分组函数基本内容2.2 grouby对象的特点三、聚合、过滤和变换3.1 聚合3.2 过滤3.3 变换四、apply函数pandas数据示例:一、SAC过程1、内涵SAC指的是分组操作中的split-apply-combine过程。其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组...

2020-04-26 22:59:56 2299

原创 python爬虫编程学习小结

python爬虫编程学习小结一、基础知识总结一、基础知识总结1.1 HTTPHTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。这个客户端成为客户代理(user agent)。应答服务器上存储着一些资源码,比如HTML文件和图像。这个应答服务器成为源服务器(or...

2020-04-21 23:13:59 1852

原创 python数据分析之pandas使用总结

python数据分析之pandas使用总结文章目录python数据分析之pandas使用总结一、pandas基础一、pandas基础1.1 文件读取和写入1.1.1 文件读取df = pd.read_csv('data/table.csv')df_txt = pd.read_table('data/table.txt') df_excel = pd.read_excel('data...

2020-04-20 22:19:13 706

原创 数据挖掘之模型融合

数据挖掘之模型融合1、模型融合目标 对于多种调参完成的模型进行模型融合,需要综合考虑不同模型的情况,并将它们的结果融合到一起,使任务性能获 得提升。2、常用方法(一).简单加权融合简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean)分类:投票(Voting)综合:排序融合(Rank averaging)...

2020-04-04 21:43:41 1020

原创 数据挖掘之建模调参

数据挖掘之建模调参一般建模与调参大致流程内容(以天池二手车预测为例)1.线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2.模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3.嵌入式特征选择:Lasso回归;Ridge回归;决策树;4.模型对比:常用线性模型;...

2020-04-01 21:52:23 311

原创 数据挖掘之特征工程入门

数据挖掘之特征工程入门定义定义:特征工程指的是把原始数据转变为模型的训练数据的过程目的目的就是获取更好的训练数据特征,使模型性能提升(甚至简单模型也能获得较大提升)大致包括特征构建(较麻烦,往往需要经验等)、特征提取、特征选择(从原始特征中找出最有效的特征)特征提取、特征选择异同: 相同点:减少特征的维度、数据冗余 相异点:特征提取强调通过特征转换的方式得到一组具有明显物理...

2020-03-28 21:42:41 518

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除