自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(82)
  • 资源 (2)
  • 收藏
  • 关注

原创 AI工程师技术学习进阶指南

数学基础微积分《北京大学高等数学B》线性代数北京大学出版社,《线性代数简明教程》 MIT 的线性代数公开课概率论与数理统计李航《统计学习方法》朴素概率论钟开来概率论朴素统计学理论北京大学出版社,《概率论与数理统计下册》 北京大学出版社,《多元统计》 Wasserman所著《All of Statistics》朴素优化理论Boyd和Vandenberghe所著《Convex Optimization》编程基础编程语言(至少熟悉1+)《集体智慧编程》..

2021-02-18 11:55:28 487

原创 常用自然语言处理NLP模型原理

一、文本处理流程 文本清洗:html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息 预处理:去除停用词、加载自定义词库(实体词库、垂直领域词库)、分词 特征提取:关键词、实体词 建模:文本分类、文本聚类、情感分析、标签提取 优化:停用词库与自定义词库清洗与丰富、文本标签清洗、模型调整 效果评估:满足线上使用要求,准确率、速度,上线部署 二、NLP算法1、TF-IDF1)原理:词频-逆文档频率;一种用于信息检索

2021-02-18 14:06:28 5933

原创 机器学习项目处理流程方法论

一、问题分析将问题抽象成模型,这是一个什么问题(分类、聚类、回归?),使用什么模型1、明确分析目的,在开展项目之前,问清楚:问题背景:为什么开展这个项目/数据分析/分析需求?为了解决什么问题? 业务场景:做这个是用在哪里?干什么的? 问题结果:通过这个项目/数据分析需要我解决什么问题? 问题方案:思考怎么做2、确定分析思路,梳理分析思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体展开数据分析,需要从那几个角度进行分析,采用哪些分析指标。 最后还要确保分析框架的体系化,

2021-02-18 13:59:50 456

原创 Centos7.2常用python开发环境安装教程(anaconda+python3.6+mysql5.7+redis5.0+nginx1.18+uwsgi+flask)

服务器系统环境网络状态:可联外网 系统:centos7.2# 查看系统版本cat /etc/centos-releaseanaconda安装安装包下载选择清华镜像源(直接下载anaconda官网速度较慢,国内镜像源下载速度快)https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D 根据需要下载对应版本安装包至本地,此处选择2020年7月发布的版本Anaconda3-2020.07-Linux-x86.

2020-11-25 15:42:33 583 1

原创 数据分析师必备技能之PowerBI教程

通过动手实践一些教程,总结一些经验。参考1、干货合辑 | 最全的PowerBI教程,都在这里了2、干货 | 无需企业邮箱,免费可发布到Web的Power BI账户注册秘籍

2020-09-23 11:22:42 8182

原创 Linux环境下常用命令

作为一名算法工程师,通常都是在Linux环境中部署环境,所以总结了一些常用命令。【文件管理】cat 命令cat(英文全拼:concatenate) 命令用于连接文件并打印到标准输出设备上。参数说明:-n 或 --number:由 1 开始对所有输出的行数编号,输出所有行号。-b 或 --number-nonblank:和 -n 相似,只不过对于空白行不编号,对非空输出行号。-s 或 --squeeze-blank:当遇到有连续两行以上的空白行,就代换为一行的空白行。-v 或

2020-09-21 18:08:04 656 1

原创 机器学习十大经典算法

一、线性回归线性回归是一种线性模型,线性模型基本形式如下,主要包括线性回归、对数几率回归、线性判别分析等几种经典模型。1、模型函数2、模型学习我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化。基于均方误差(平方损失,欧氏距离)最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,是所有样本到直线上的欧氏距离之和最小。注:推导过程见二元线性回归最小二乘法公式推导3、经验规则我们可以删

2020-09-15 14:39:40 848

原创 leetcode 4. 寻找两个有序数组的中位数(python)

4. 寻找两个有序数组的中位数【困难难度】给定两个大小为 m 和 n 的有序数组nums1 和nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m + n))。你可以假设nums1和nums2不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]...

2020-05-07 13:55:18 446 1

原创 Linux服务器端离线安装nginx+uwsgi+flask环境

硬件环境操作系统:Linux Ubuntu 16.04.12~$ cat /proc/versionLinux version 4.15.0-72-generic (buildd@lcy01-amd64-023) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12)) #81~16.04.1-Ubuntu SMP Tu...

2020-05-07 13:41:41 917

原创 python redis安装与使用教程

简介REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希...

2020-05-07 11:51:12 1137

原创 win10系统下crontab实现python定时任务功能,增加日志功能logging

在win10上安装linux子系统ubuntuhttps://jingyan.baidu.com/article/49711c61a1a025fa441b7cf2.htmlwindows 10应用商店版ubuntu安装以及设置中文https://blog.csdn.net/a156348933/article/details/80079117如何在win10下使用...

2020-04-29 10:06:33 1524

原创 机器学习|深度学习|数据挖掘|自然语言处理 值得收藏的好文资源合集

机器学习算法原理解析一文搞懂HMM(隐马尔可夫模型)github项目Linux系统编码Ubuntu Linux 下文件名乱码(无效的编码)的快速解决办法自然语言处理开源工具jieba hanlp LTP Stanford nlpir bosonnlp 腾讯nlp nltk命名实体识别用隐马尔可夫模型(HMM)做命名实...

2020-04-10 17:21:58 233

原创 ubuntu16.04部署python3.5+flask+nginx+uwsgi过程中踩坑

uwsgiubuntu系统下uWSGI安装和启动的两个坑https://blog.csdn.net/weixin_42682982/article/details/90698724kinectv2编译时出现错误需要目标/usr/lib/x86_64-linux-gnu/libGL.so”。 停止ps:此处为参考,libpcre.so.1文件已存在,如何重建软连接ht...

2019-11-06 11:51:16 326

原创 李航《统计学习方法》读书笔记2——第二章 感知机

第二章 感知机感知机模型感知机是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。...

2019-10-15 11:32:06 230

原创 数据分析、数据挖掘、机器学习工程师必备之公开数据集整理(收藏)

Awesome Public Datasets此高质量的以主题为中心的公共数据源列表。它们是从博客,答案和用户响应中收集和整理的。下面列出的大多数数据集都是免费的,但是有些不是。其他惊人的超赞列表可以在sindresorhus的超赞列表中找到。https://github.com/awesomedata/awesome-public-datasetsnlp-datasets用...

2019-10-11 11:31:37 1704 1

原创 李航《统计学习方法》读书笔记1——第一章 统计学习方法概论

第一章 统计学习方法概论简单介绍统计学习方法基本概念。统计学习定义关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。研究对象数据data(数字、文字、图像、视频、音频),同类数据具有一定的统计规律性获取数据——提取特征——抽象模型——挖掘知识——分析预测统计学习方法基于数据构建统计模型从而对数据进行预测与分析...

2019-10-10 18:12:57 664

原创 leetcode 455. 分发饼干(python)

455. 分发饼干【简单】假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i ,都有一个胃口值gi ,这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j ,都有一个尺寸 sj。如果 sj >= gi,我们可以将这个饼干 j 分配给孩子 i ,这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子,并输出这个最大数值。注意:...

2019-08-26 16:00:31 423

原创 leetcode 75. 颜色分类(python)

75. 颜色分类【中等】给定一个包含红色、白色和蓝色,一共n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。此题中,我们使用整数 0、1 和 2 分别表示红色、白色和蓝色。注意:不能使用代码库中的排序函数来解决这道题。示例:输入: [2,0,2,1,1,0]输出: [0,0,1,1,2,2]进阶:一个直观的解决方案是使用...

2019-08-26 15:57:17 504

原创 leetcode 347. 前 K 个高频元素(python)

347. 前 K 个高频元素【中等】给定一个非空的整数数组,返回其中出现频率前k高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]说明:你可以假设给定的k总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(...

2019-08-26 15:42:43 642 5

原创 leetcode 215. 数组中的第K个最大元素(python)

215. 数组中的第K个最大元素【中等】在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。示例 1:输入: [3,2,1,5,6,4] 和 k = 2输出: 5示例2:输入: [3,2,3,1,2,4,5,5,6] 和 k = 4输出: 4说明:你可以假设 k 总是有效的,且 1 ≤ k ≤ 数...

2019-08-26 15:34:45 466 1

原创 leetcode 167. 两数之和 II - 输入有序数组(python)

167. 两数之和 II - 输入有序数组【简单】给定一个已按照升序排列的有序数组,找到两个数使得它们相加之和等于目标数。函数应该返回这两个下标值 index1 和 index2,其中 index1必须小于index2。说明:返回的下标值(index1 和 index2)不是从零开始的。你可以假设每个输入只对应唯一的答案,而且你不可以重复使用相同的元素。示例:输入: ...

2019-08-26 09:54:07 180

原创 leetcode 3. 无重复字符的最长子串(python)

3. 无重复字符的最长子串【中等难度】给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3...

2019-08-21 11:12:53 139

原创 leetcode 2.两数相加(python)

2.两数相加【中等难度】给出两个非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0开头。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输...

2019-08-20 17:57:45 166

原创 leetcode 1.两数相加(python)

1.两数之和【简单难度】给定一个整数数组和一个目标值,找出数组中和为目标值的两个数。你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]代码:class Solution: def...

2019-08-20 16:49:21 278

原创 leetcode刷题前必看算法基础和数据结构

编程基础知识算法复杂度编写程序需要注重算法复杂度,刷题时也存在多解,如何找到最优解成为一个需要重点关注的方向。算法复杂度:是指算法在编写成可执行程序后,运行时所需要的资源,资源包括时间资源和内存资源。应用于数学和计算机导论。同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考...

2019-08-20 15:13:23 3556

原创 《推荐系统实践》读后心得

基本任务联系用户和物品,解决信息过载问题难点自然语言理解技术很难用户用来描述兴趣的自然语言 用户的兴趣是不断变化的,但用户不会去经常更新兴趣描述 用户不知道自己喜欢什么,或者很难描述自己喜欢什么信息过载解决方案分类目录 雅虎、DMOZ、hao123将著名的网站分门别类,从而方便用户根据类别查找网站。但是随着互联网规模的不断扩大,分类目录网站也只能覆盖少量的热门网...

2019-08-15 18:20:36 880

原创 读《大佬的思维模式》有感

最近读了路人甲公众号的一篇文章,有感而发写一波博客,记录如下。通过打造自己的“品牌”积累技术和人气,不仅提升自我,还可以结识更多优秀的人。遇到问题——分析问题——解决问题的思维模式有两种:一、框架性思维思考问题要全面,由上而下、由里而外分析。不能揪住某个点不放,否则结果可能是付出很多努力并没有任何实际收获。这个点很重要,给我很多启发,因为我平时思考问题容...

2019-04-15 10:48:16 589

原创 笔记本重装win10系统

装机准备笔记本 容量4g以上u盘装机步骤制作启动u盘老毛桃装机版制作启动u盘图文教程下载安装win10系统Ghost Windows 10 X64 专业版下载老毛桃u盘快速安装ghost win10系统教程一键启动U盘快捷键查询启动项查询参考电脑重装系统,详细教您电脑怎么重装win10系统 老毛桃装机版制作启动u盘图文教程 老毛桃u盘快速安装gh...

2019-03-29 10:45:07 3454

原创 作为一名高贵的科研狗+程序猿,如何优雅地查阅文献资料

副标题1:作为一名高贵的科研狗+程序猿,不知道以下网站你就out了!副标题2:这些网站你都不知道,还谈什么科研和学术?快去搬砖!作为一名科研人士(dog),怎么能够对查阅/下载论文资料一无所知呢?不然被问到哪里能够下载到您的宝作时,就只能翟天临式微笑了,桀桀桀~下面介绍一下作者大概通过哪些途径获取最新的论文。中文文献检索中国知网http://www.cnki.net/知...

2019-03-26 14:37:02 864

原创 【深度学习系统部署】win10+ 虚拟机VMware + ubuntu16 + anaconda + tensorflow安装

需求背景使用VMware在ubuntu系统的虚拟机上安装tensorflow serving,部署模型环境配置宿主机系统:win10 64位 宿主机python:anaconda + python3.6 宿主机tensorflow-gpu:cuda 9.0.176 + cudnn 7.0.3 虚拟机交互:VMware workstation 12 player +VMware ...

2019-03-20 14:26:50 8164 7

原创 解决VMware创建Linux系统虚拟机进行磁盘扩容后容量大小并未改变

Ubuntu linux系统下 su:出现: authentication failure的解决办法https://blog.csdn.net/li235456789/article/details/50857249VMware中调大虚拟硬盘容量以后ubuntu中硬盘容量为什么不变?https://zhidao.baidu.com/question/226727679897789...

2019-03-19 16:34:22 17027

原创 查看cuda和cudnn版本win&linux

windows系统:cuda:nvcc -V或者打开cuda安装文件夹 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0 中的 version.txt 文件查看我的cuda版本为9.0.176也可以直接 win+R 打开命令行cmd, 输入以下命令进行查询cd C:\Program Files\...

2019-03-12 14:23:37 38432 4

原创 mysql学习笔记——增删改查基本数据库操作指南

简介数据库(database)是按照一定的数据结构来组织、存储和管理数据的仓库。mysql是常用的关系型数据库(将数据保存在不同表中)之一。其数据库特点:MySQL 是开源的,所以你不需要支付额外的费用。 MySQL 支持大型的数据库。可以处理拥有上千万条记录的大型数据库。 MySQL 使用标准的 SQL 数据语言形式。 MySQL 可以运行于多个系统上,并且支持多种语言。这些编程语...

2019-03-07 16:53:38 572

原创 深度学习中各种神经网络小结(感知机、神经网络CNN/RNN、激活函数、过拟合)

感知机多个输入,只有一个输出输入和输出间学习一个线性关系增加一个激活函数(符号函数)得到一个二分类输出结果1或-1模型局限性:仅用于二分类模型,无法学习更复杂的非线性模型,因此工业界无法应用神经网络对感知机做了改进和扩展:1、加入隐藏层,隐藏层可以是多层或单层,层数越多,模型表达能力越强,复杂度也越高2、多个输出,可用于分类回归、降维聚类...

2019-03-04 11:37:10 1803

原创 【机器学习/深度学习】学习笔记——易混淆和常见的专有名词、概念

pythona.append(b)>>> a = [1,2,3]>>> b = [4,5,6]>>> a.append(b)>>> a[1, 2, 3, [4, 5, 6]]a.extend(b)>>> a = [1,2,3]>>&gt

2019-02-25 17:19:50 441

原创 实际工程问题中应用机器学习和深度学习的踩坑心得总结

数据样本一开始会偏好去套用论文中的各种华丽算法,希冀提高百分之几的指标,最后“啪啪啪”打脸,发现还是那句老话说得好,“对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限”。所以追本溯源,提高结果的关键手段之一是提高数据和特征的质量和数量,这能达到快速提高指标结果的目的。增加训练样本数量,收集更多的数据 优化数据清洗 改善样本分布特征工...

2019-02-22 16:09:47 815

原创 2018“达观杯”文本智能处理挑战赛心得

达观杯是一个NLP文本处理比赛,由达观数据公司主办,具体信息参考此比赛网址。为了熟悉一下算法比赛的流程,报名并参加了这个比赛,此比赛已经结束了,但是仍然可以报名参加获取分数和排名,这个kaggle的比赛一样,我觉得对于新人练手来说还是很方便的。废话不多说,以下详述比赛流程。环境配置win10 python3.6 pycharm jupyter notebook scikit-lea...

2019-02-19 16:20:16 705

原创 《百面机器学习——学习笔记》个性化推荐系统

冷启动冷启动问题:在没有大量用户数据的情况下如何给用户进行个性化推荐冷启动目的:最优化点击率、 转化率或用户体验(用户停留时间、 留存率等)冷启动问题分类:用户冷启动:指对一个之前没有行为或行为极少的新用户进行推荐 物品冷启动:指为一个新上市的商品或电影(这时没有与之相关的评分或用户行为数据) 寻找到具有潜在兴趣的用户 系统冷启动:指如何为一个新开发的网站设计个性化推荐系统解...

2019-02-15 15:07:29 580

原创 《百面机器学习——学习笔记》2、模型评估

前言“没有测量,就没有科学。” ——门捷列夫1、评估指标的局限性奢侈品广告投放问题,训练奢侈品用户数据模型,准确率高,但非奢用户仍被投广告问题1 准确率的局限性。难度:★☆☆☆☆解答:准确率(Accuracy):分类正确的样本占总样本个数的比例缺点:当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。改进:平均准确率(每个类别下的样本准...

2019-01-29 16:47:13 385

原创 《百面机器学习》学习笔记 1、特征工程

前言对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。定义特征工程:是对原始数据进行一系列工程处理, 将其提炼为特征, 作为输入供算法和模型使用。 从本质上来讲, 特征工程是一个表示和展现数据的过程。 在实际工作中, 特征工程旨在去除原始数据中的杂质和冗余, 设计更高效的特征以刻画求解的问题与预测模型之间的关系。常见数据类型结...

2019-01-29 14:06:10 403

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除