![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习之路
文章平均质量分 75
Robin_Pi
所有觉得难得东西,只是因为没有真正理解最基础的概念
展开
-
Python数据分析之可视化——用 Seaborn 做数据可视化(0)总章
目录1. 介绍&框架1.1 Seaborn 与 Matplotlib 的关系1.2 Seaborn 的优势1.31.4 框架(理解)2. 绘图函数2.1 可视化统计关系2.2 可视化分类数据分类散点图同类观测值分布同类统计评估可视化“宽型”数据使用分面图进行多变量关系分析2.3 可视化数据集的数据分布可视化单变量分布可视化双变量分布(二元分布)可视化数据集中的成对关系2.4 可视化线性关系绘制线...原创 2020-01-13 09:48:51 · 737 阅读 · 0 评论 -
机器学习入门之路(环境搭建)
Day1:Mac上的环境搭建1.Anaconda + python虚拟环境Mac 版不像Windows,很多内置的工具不需要自己下载,如图上面一排。安装好Anaconda之后需要注意的一个点,是其环境是可以自己新建添加的,而不一定用默认的root环境,点击environment之后再新建一个即可。2.Pycharm + python安装好破解版的Pycharm之后,配置Anacond...原创 2019-01-26 14:04:43 · 369 阅读 · 0 评论 -
深度之眼吴恩达机器学习课程学习记录——(1)——开营直播
课程目的通过近两个月的学习,掌握机器学习基础知识。学习方式学习公开课 + 完成作业 + 作业讲解视频 + 答疑- 带学讲师福利打卡返现对于能坚持到最后,按要求完成全勤打卡且排名前20的,保质保量完成学习的,我们全额返现!积分活动课程安排推荐资料...原创 2020-01-07 12:09:52 · 458 阅读 · 0 评论 -
AI 之路——数据分析(2)利用Pandas进行数据清清洗
数据预处理1. 缺失值处理缺失值python缺失值有3种:1)Python内置的None值2)在pandas中,将缺失值表示为NA,表示不可用not available。3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。后面出来数据,如果遇到错误:说什么foloat错误,那就是有缺失值,需要处理掉所以,缺失值有3种:None,NA,NaN(N...原创 2020-01-04 18:36:39 · 400 阅读 · 0 评论 -
AI 之路——数据分析(1)Pandas小结与框架整理
写在前面主要是阶段性框架总结AI 之路:数据分析——机器学习——深度学习——CV/NLP工具/技能:Python、NumPy、Pandas、Matplotlib——Scikit-learn;LR、SVM…——TensorFlow、Keras、Pytorch;CNN、RNN…数据分析使用 NumPy 或者 Pandas 进行数据分析,后者更为强大和专业,而且有自己的 Matplotli...原创 2020-01-04 18:02:19 · 421 阅读 · 0 评论 -
Python文本处理(3)——文本表示之 one-hot 词向量(1)——纯小白都能懂!
python 文本处理小结-供自己复习使用文本表示最基础的怕是最基础的 one-hot 编码,基础的东西有利于我们从源头和本质上进行思考。比如,现在给一堆文本数据给你,你会如何思考将文本信息传递出去并让计算机识别?——单词作为文本的最小单位,我们自然而然的会想到从单词入手。的确,自然语言就是一套用来表达含义的系统,在这套系统中,词,就是表义的基本单元。词向量被用来表示词的向量或表征,也可被...原创 2019-12-27 15:48:07 · 6878 阅读 · 4 评论 -
初识 gensim 之 word2vec
主要参考:https://www.jianshu.com/p/52ee8c5739b6(Gensim Word2vec 使用指南)https://rare-technologies.com/word2vec-tutorial/ (Word2vec Tutorial)作为自己复习使用。GensimGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文...原创 2019-12-27 00:19:28 · 370 阅读 · 0 评论 -
OSError: [Errno 24] Too many open files
原创 2019-12-26 21:26:10 · 2210 阅读 · 0 评论 -
关于log loss:log loss 什么范围才合理?log loss 特别大如何解决?为什么使用log loss?
问题:在使用tf-idf特征和logistic regression模型作文本分类(二分类)时,出现了下面的情况:试过相同特征下的其他模型如Naive Bayes,但是效果一样:又分别试了下word count特征,而不使用tf-idf,效果还是不行:所以,log loss 到底什么范围才合理?log loss 特别大的话该如何解决?解决:1.为什么使用 log loss?log lo...原创 2019-12-26 11:18:00 · 6637 阅读 · 1 评论 -
机器学习之路(1)——数据与模型(最基本框架)
基于python、scikit-learn ;偏重于代码现实,供自己复习使用。数据——模型(函数)——数据数据:向量化数据文本数据根据之前的文本分类的项目,也基本清楚了,文本数据向量化的两种核心方式:one-hot编码和word embedding (词向量)当然,根据特征的选择方式不同,又可以细化分成最普通的one-hot编码、最简单的词袋模型(1-gram)、tf-idf、n-g...原创 2019-12-26 10:25:50 · 259 阅读 · 0 评论 -
Matplotlib——颜色名与RGB对应关系
cnames = {'aliceblue': '#F0F8FF','antiquewhite': '#FAEBD7','aqua': '#00FFFF','aquamarine': '#7FFFD4','azure': '#F0FFFF','beige': ...原创 2019-12-21 00:11:17 · 2448 阅读 · 0 评论 -
聚类可视化之前使用pca报错:TypeError: PCA does not support sparse input. See TruncatedSVD for a possible alterna
意思是,PCA不接受稀疏矩阵?有办法将稀疏矩阵传入PCA么?——试着转为数组形式(toarray)如不行,那应该如何操作?——使用SVD(scikit-learn中有)原创 2019-12-20 22:25:58 · 3347 阅读 · 2 评论 -
Python文本处理(2)——感悟/小结:数据处理的本质
原创 2019-12-20 13:36:06 · 236 阅读 · 0 评论 -
如何用python去除单词之间多余的空格?
re.sub(" +", " ", s)import re s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. "re...原创 2019-12-19 21:36:32 · 2074 阅读 · 0 评论 -
Python文本处理(1)——文本表示之词袋模型(BOW)(1)
极简理论:词袋(Bag-of-words)模型词袋(Bag-of-words)是描述文档中单词出现的文本的一种表示形式。它涉及两件方面:1.已知词汇的词汇表(构建词汇表的)模型及改进方法:1.词袋模型(bag-of-words model)2. n-gram model (n 代表组在一起单词的数量)比如有,2-gram(bigram) model、3-gram (trigram) ...原创 2019-12-19 16:20:57 · 3396 阅读 · 0 评论 -
scikit-learn文本处理时出现:fit_transform() missing 1 required positional argument: 'X'
In scikit-learn, everything with a fit_transform is an instance of some type, which is to say that you’ll need to initialize that instance first, where you are calling fit_transform as if it were a st...原创 2019-12-19 15:08:01 · 1501 阅读 · 0 评论 -
Python数据分析之Pandas(3)——Pandas小结
0. 核心基础:(速记-解释-白话)Series:一维;两个“属性”;操作元素① 一维数组结构(看做表格中的一列)②由 index 和 对应的值 构成 (对应行index的一列)③元素级别的操作 (操作这一列之内的元素)DataFrame :二维;三个“属性”;操作行/列①二维数据结构(看做横向/列变化方向堆叠起来的多个Series)②由 index、列名 和 它们对应的值 ...原创 2019-12-27 20:34:34 · 301 阅读 · 0 评论 -
Python文本处理——re.sub 和 str.replace()的区别
1.str.replace()str.replace(old, new[, max])用新字符串 new 替换旧字符串 old,可以设置替换次数 maxold – 将被替换的子字符串。new – 新字符串,用于替换old子字符串。max – 可选字符串, 替换不超过 max 次text1 = ' Info has been found (+/- 100 pages,...原创 2019-12-19 00:14:45 · 1132 阅读 · 0 评论 -
杂谈——机器学习(使用Python进行文本处理)实践感悟:快速迭代
①快速搭建并跑通模型;②评估和优化模型;③模型完成;要是陷入了第一步模型搭建的路上,那么很有可能将会万劫不复掉!分清主次关系,不要陷进微观而忘了宏观上的目标。...原创 2019-12-18 15:29:25 · 149 阅读 · 0 评论 -
Python文本处理—初识正则表达式模块(re模块)
re(Regular Expression)模块/正则表达式模块正则表达式语法:正则表达式特殊序列:(包含’ \ ’的特殊序列的意义)参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-pythonre/index.html...原创 2019-12-17 23:46:43 · 406 阅读 · 0 评论 -
Python数据分析之NumPy(2)——NumPy核心概念强化篇
本文作为学习NumPy快速教程之后的知识补充,只有真正、正确地理解了每个概念意思,才会再以后的学习过程中少走弯路。在NumPy的学习中,我们最重要的学习目标就是它的ndarray对象。1. 数组对象三个基本对象:1.ndarray本身ndarray是同质的(homogenous):每个项目占用相同大小的内存块, 并且所有块都以完全相同的方式解释。好处:数组对象采用相同的数据类型...原创 2019-12-16 12:19:50 · 714 阅读 · 0 评论 -
Python数据分析之Pandas(1)——Pandas官方文档解读:一篇文章 Pandas 快速上手
一.概览两大数据结构:Series和DateFrame(分别对应一维数据和二维数据)记住:index(the rows) 用来代替 axis=0;columns 用来代替axis=1二.快速入门1. 数据导入CSV文件、Excel文件、HDF5pd.read_csv()pd.read_excel()pd.read_hdf()df = pandas.read_csv(...原创 2019-12-15 02:20:34 · 1000 阅读 · 0 评论 -
Python数据分析之NumPy(1)——NumPy快速入门笔记:用一篇文章快速解最核心的NumPy知识
大部分内容是来自英文版官方文档,再加上自己的一点理解,供自己复习用。1. 几个重要概念1.1 array (NumPy数组)NumPy’s main object is the homogeneous multidimensional array.It is a table of elements (usually numbers), all of the same type, index...原创 2019-12-14 16:44:12 · 550 阅读 · 0 评论 -
小白入门PyQt5(1)——了解和环境搭建
0. 写在前面:本文 以Mac为例,其他操作系统可能有所不同本文面向的对象是完全的小白1. 基本概念QT = 跨平台的C++应用程序开发框架,主要用于GUI(Graphical User Interface)开发PyQt5 = python库文件 = Python + QT + 版本号5Qt Designer = PyQt程序UI界面的实现工具pyqt5-tools = 用于...原创 2019-11-22 15:59:12 · 250 阅读 · 0 评论 -
深度学习如何获得免费GPU(2)——谷歌云colab
经过一些列尝试(一把鼻涕一把泪)之后,使用建行的Visa卡成功申请了谷歌云账号。梳理下接下来的工作:一.完善个人信息(防止账号被停止使用)1.修改防火墙规则二.尽快上手GCP1.创建计算引擎在这里插入图片描述...原创 2019-11-22 13:25:26 · 1932 阅读 · 2 评论 -
Mac book pro 如何跑深度学习?深度学习如何获得免费GPU(1)——谷歌云colab
方案:一. mac + 台式机二. mac + 云服务器https://zhuanlan.zhihu.com/p/52827335谷歌云服务器——colabhttps://zhuanlan.zhihu.com/p/61620585https://www.cnblogs.com/Gbeniot/p/7298349.html卡片类型不受支持问题:https://blog.shelik...原创 2019-04-21 13:42:18 · 8263 阅读 · 1 评论 -
机器(深度)学习入门3000问(龟速持续更新)
一.关于环境的搭建python1.版本anaconda1.需要配置多种环境么?2.jupyter notebook中python的版本如何确定?pycharm1.如何配置正确的interpreter原创 2019-03-22 08:59:47 · 266 阅读 · 0 评论