天真不无邪,hello和world

私信 关注
保护我方鲁班七号
码龄6年

机器学习、深度学习、自然语言处理从业者

  • 243,026
    被访问量
  • 74
    原创文章
  • 33,314
    作者排名
  • 139
    粉丝数量
  • 于 2014-12-15 加入CSDN
获得成就
  • 获得156次点赞
  • 内容获得114次评论
  • 获得480次收藏
荣誉勋章
兴趣领域
  • #算法
    #CV(computer vision)#回归#推荐算法#集成学习#TensorFlow#NLP#迁移学习#聚类#scikit-learn#排序算法#分类
TA的专栏
  • 开源整理
    2篇
  • 统计学习方法
    2篇
  • 机器学习
    28篇
  • 深度学习
    20篇
  • 软件使用&安装&卸载
    13篇
  • 数据库
    3篇
  • 自然语言处理
    5篇
  • Linux
    4篇
  • kaggle
    1篇
  • 数据爬虫&数据分析&数据挖掘
    5篇
  • 产品设计
    1篇
  • 推荐系统
    1篇
  • 算法刷题/竞赛
    15篇
  • 系统重装
    1篇
  • 思维模式
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

常用自然语言处理NLP模型原理

一、文本处理流程 文本清洗:html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息 预处理:去除停用词、加载自定义词库(实体词库、垂直领域词库)、分词 特征提取:关键词、实体词 建模:文本分类、文本聚类、情感分析、标签提取 优化:停用词库与自定义词库清洗与丰富、文本标签清洗、模型调整 效果评估:满足线上使用要求,准确率、速度,上线部署 二、NLP算法1、TF-IDF1)原理:词频-逆文档频率;一种用于信息检索
原创
72阅读
0评论
0点赞
发布博客于 2 月前

机器学习项目处理流程方法论

一、问题分析将问题抽象成模型,这是一个什么问题(分类、聚类、回归?),使用什么模型1、明确分析目的,在开展项目之前,问清楚:问题背景:为什么开展这个项目/数据分析/分析需求?为了解决什么问题? 业务场景:做这个是用在哪里?干什么的? 问题结果:通过这个项目/数据分析需要我解决什么问题? 问题方案:思考怎么做2、确定分析思路,梳理分析思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体展开数据分析,需要从那几个角度进行分析,采用哪些分析指标。 最后还要确保分析框架的体系化,
原创
76阅读
0评论
0点赞
发布博客于 2 月前

AI工程师技术学习进阶指南

数学基础微积分《北京大学高等数学B》线性代数北京大学出版社,《线性代数简明教程》 MIT 的线性代数公开课概率论与数理统计李航《统计学习方法》朴素概率论钟开来概率论朴素统计学理论北京大学出版社,《概率论与数理统计下册》 北京大学出版社,《多元统计》 Wasserman所著《All of Statistics》朴素优化理论Boyd和Vandenberghe所著《Convex Optimization》编程基础编程语言(至少熟悉1+)《集体智慧编程》..
原创
53阅读
0评论
0点赞
发布博客于 2 月前

Centos7.2常用python开发环境安装教程(anaconda+python3.6+mysql5.7+redis5.0+nginx1.18+uwsgi+flask)

服务器系统环境网络状态:可联外网 系统:centos7.2# 查看系统版本cat /etc/centos-releaseanaconda安装安装包下载选择清华镜像源(直接下载anaconda官网速度较慢,国内镜像源下载速度快)https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D 根据需要下载对应版本安装包至本地,此处选择2020年7月发布的版本Anaconda3-2020.07-Linux-x86.
原创
71阅读
1评论
0点赞
发布博客于 4 月前

数据分析师必备技能之PowerBI教程

通过动手实践一些教程,总结一些经验。参考1、干货合辑 | 最全的PowerBI教程,都在这里了2、干货 | 无需企业邮箱,免费可发布到Web的Power BI账户注册秘籍
原创
497阅读
0评论
0点赞
发布博客于 6 月前

Linux环境下常用命令

作为一名算法工程师,通常都是在Linux环境中部署环境,所以总结了一些常用命令。【文件管理】cat 命令cat(英文全拼:concatenate) 命令用于连接文件并打印到标准输出设备上。参数说明:-n 或 --number:由 1 开始对所有输出的行数编号,输出所有行号。-b 或 --number-nonblank:和 -n 相似,只不过对于空白行不编号,对非空输出行号。-s 或 --squeeze-blank:当遇到有连续两行以上的空白行,就代换为一行的空白行。-v 或
原创
111阅读
0评论
0点赞
发布博客于 6 月前

机器学习十大经典算法

一、线性回归线性回归是一种线性模型,线性模型基本形式如下,主要包括线性回归、对数几率回归、线性判别分析等几种经典模型。1、模型函数2、模型学习我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化。基于均方误差(平方损失,欧氏距离)最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,是所有样本到直线上的欧氏距离之和最小。注:推导过程见二元线性回归最小二乘法公式推导3、经验规则我们可以删
原创
73阅读
0评论
0点赞
发布博客于 7 月前

leetcode 4. 寻找两个有序数组的中位数(python)

4. 寻找两个有序数组的中位数【困难难度】给定两个大小为 m 和 n 的有序数组nums1 和nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m + n))。你可以假设nums1和nums2不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]...
原创
292阅读
1评论
0点赞
发布博客于 1 年前

Linux服务器端离线安装nginx+uwsgi+flask环境

硬件环境操作系统:Linux Ubuntu 16.04.12~$ cat /proc/versionLinux version 4.15.0-72-generic (buildd@lcy01-amd64-023) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12)) #81~16.04.1-Ubuntu SMP Tu...
原创
438阅读
0评论
0点赞
发布博客于 1 年前

python redis安装与使用教程

简介REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希...
原创
425阅读
0评论
0点赞
发布博客于 1 年前

win10系统下crontab实现python定时任务功能,增加日志功能logging

在win10上安装linux子系统ubuntuhttps://jingyan.baidu.com/article/49711c61a1a025fa441b7cf2.htmlwindows 10应用商店版ubuntu安装以及设置中文https://blog.csdn.net/a156348933/article/details/80079117如何在win10下使用...
原创
495阅读
0评论
0点赞
发布博客于 1 年前

机器学习|深度学习|数据挖掘|自然语言处理 值得收藏的好文资源合集

机器学习算法原理解析一文搞懂HMM(隐马尔可夫模型)github项目Linux系统编码Ubuntu Linux 下文件名乱码(无效的编码)的快速解决办法自然语言处理开源工具jieba hanlp LTP Stanford nlpir bosonnlp 腾讯nlp nltk命名实体识别用隐马尔可夫模型(HMM)做命名实...
原创
109阅读
0评论
0点赞
发布博客于 1 年前

ubuntu16.04部署python3.5+flask+nginx+uwsgi过程中踩坑

uwsgiubuntu系统下uWSGI安装和启动的两个坑https://blog.csdn.net/weixin_42682982/article/details/90698724kinectv2编译时出现错误需要目标/usr/lib/x86_64-linux-gnu/libGL.so”。 停止ps:此处为参考,libpcre.so.1文件已存在,如何重建软连接ht...
原创
193阅读
0评论
0点赞
发布博客于 2 年前

数据分析、数据挖掘、机器学习工程师必备之公开数据集整理(收藏)

Awesome Public Datasets此高质量的以主题为中心的公共数据源列表。它们是从博客,答案和用户响应中收集和整理的。下面列出的大多数数据集都是免费的,但是有些不是。其他惊人的超赞列表可以在sindresorhus的超赞列表中找到。https://github.com/awesomedata/awesome-public-datasetsnlp-datasets用...
原创
487阅读
0评论
0点赞
发布博客于 2 年前

李航《统计学习方法》读书笔记2——第二章 感知机

第二章 感知机感知机模型感知机是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。...
原创
107阅读
0评论
0点赞
发布博客于 2 年前

李航《统计学习方法》读书笔记1——第一章 统计学习方法概论

第一章 统计学习方法概论简单介绍统计学习方法基本概念。统计学习定义关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。研究对象数据data(数字、文字、图像、视频、音频),同类数据具有一定的统计规律性获取数据——提取特征——抽象模型——挖掘知识——分析预测统计学习方法基于数据构建统计模型从而对数据进行预测与分析...
原创
254阅读
0评论
0点赞
发布博客于 2 年前

leetcode 455. 分发饼干(python)

455. 分发饼干【简单】假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i ,都有一个胃口值gi ,这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j ,都有一个尺寸 sj。如果 sj >= gi,我们可以将这个饼干 j 分配给孩子 i ,这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子,并输出这个最大数值。注意:...
原创
177阅读
0评论
0点赞
发布博客于 2 年前

leetcode 75. 颜色分类(python)

75. 颜色分类【中等】给定一个包含红色、白色和蓝色,一共n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。此题中,我们使用整数 0、1 和 2 分别表示红色、白色和蓝色。注意:不能使用代码库中的排序函数来解决这道题。示例:输入: [2,0,2,1,1,0]输出: [0,0,1,1,2,2]进阶:一个直观的解决方案是使用...
原创
228阅读
0评论
0点赞
发布博客于 2 年前

leetcode 347. 前 K 个高频元素(python)

347. 前 K 个高频元素【中等】给定一个非空的整数数组,返回其中出现频率前k高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]说明:你可以假设给定的k总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(...
原创
256阅读
4评论
0点赞
发布博客于 2 年前

leetcode 215. 数组中的第K个最大元素(python)

215. 数组中的第K个最大元素【中等】在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。示例 1:输入: [3,2,1,5,6,4] 和 k = 2输出: 5示例2:输入: [3,2,3,1,2,4,5,5,6] 和 k = 4输出: 4说明:你可以假设 k 总是有效的,且 1 ≤ k ≤ 数...
原创
115阅读
0评论
0点赞
发布博客于 2 年前

leetcode 167. 两数之和 II - 输入有序数组(python)

167. 两数之和 II - 输入有序数组【简单】给定一个已按照升序排列的有序数组,找到两个数使得它们相加之和等于目标数。函数应该返回这两个下标值 index1 和 index2,其中 index1必须小于index2。说明:返回的下标值(index1 和 index2)不是从零开始的。你可以假设每个输入只对应唯一的答案,而且你不可以重复使用相同的元素。示例:输入: ...
原创
85阅读
0评论
0点赞
发布博客于 2 年前

leetcode 3. 无重复字符的最长子串(python)

3. 无重复字符的最长子串【中等难度】给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。示例1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3...
原创
47阅读
0评论
0点赞
发布博客于 2 年前

leetcode 2.两数相加(python)

2.两数相加【中等难度】给出两个非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0开头。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输...
原创
72阅读
0评论
0点赞
发布博客于 2 年前

leetcode 1.两数相加(python)

1.两数之和【简单难度】给定一个整数数组和一个目标值,找出数组中和为目标值的两个数。你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]代码:class Solution: def...
原创
130阅读
0评论
0点赞
发布博客于 2 年前

leetcode刷题前必看算法基础和数据结构

编程基础知识算法复杂度编写程序需要注重算法复杂度,刷题时也存在多解,如何找到最优解成为一个需要重点关注的方向。算法复杂度:是指算法在编写成可执行程序后,运行时所需要的资源,资源包括时间资源和内存资源。应用于数学和计算机导论。同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考...
原创
1752阅读
0评论
1点赞
发布博客于 2 年前

《推荐系统实践》读后心得

基本任务联系用户和物品,解决信息过载问题难点自然语言理解技术很难用户用来描述兴趣的自然语言 用户的兴趣是不断变化的,但用户不会去经常更新兴趣描述 用户不知道自己喜欢什么,或者很难描述自己喜欢什么信息过载解决方案分类目录 雅虎、DMOZ、hao123将著名的网站分门别类,从而方便用户根据类别查找网站。但是随着互联网规模的不断扩大,分类目录网站也只能覆盖少量的热门网...
原创
332阅读
0评论
0点赞
发布博客于 2 年前

读《大佬的思维模式》有感

最近读了路人甲公众号的一篇文章,有感而发写一波博客,记录如下。通过打造自己的“品牌”积累技术和人气,不仅提升自我,还可以结识更多优秀的人。遇到问题——分析问题——解决问题的思维模式有两种:一、框架性思维思考问题要全面,由上而下、由里而外分析。不能揪住某个点不放,否则结果可能是付出很多努力并没有任何实际收获。这个点很重要,给我很多启发,因为我平时思考问题容...
原创
324阅读
0评论
1点赞
发布博客于 2 年前

笔记本重装win10系统

装机准备笔记本 容量4g以上u盘装机步骤制作启动u盘老毛桃装机版制作启动u盘图文教程下载安装win10系统Ghost Windows 10 X64 专业版下载老毛桃u盘快速安装ghost win10系统教程一键启动U盘快捷键查询启动项查询参考电脑重装系统,详细教您电脑怎么重装win10系统 老毛桃装机版制作启动u盘图文教程 老毛桃u盘快速安装gh...
原创
2597阅读
0评论
5点赞
发布博客于 2 年前

作为一名高贵的科研狗+程序猿,如何优雅地查阅文献资料

副标题1:作为一名高贵的科研狗+程序猿,不知道以下网站你就out了!副标题2:这些网站你都不知道,还谈什么科研和学术?快去搬砖!作为一名科研人士(dog),怎么能够对查阅/下载论文资料一无所知呢?不然被问到哪里能够下载到您的宝作时,就只能翟天临式微笑了,桀桀桀~下面介绍一下作者大概通过哪些途径获取最新的论文。中文文献检索中国知网http://www.cnki.net/知...
原创
471阅读
0评论
2点赞
发布博客于 2 年前

【深度学习系统部署】win10+ 虚拟机VMware + ubuntu16 + anaconda + tensorflow安装

需求背景使用VMware在ubuntu系统的虚拟机上安装tensorflow serving,部署模型环境配置宿主机系统:win10 64位 宿主机python:anaconda + python3.6 宿主机tensorflow-gpu:cuda 9.0.176 + cudnn 7.0.3 虚拟机交互:VMware workstation 12 player +VMware ...
原创
3305阅读
2评论
3点赞
发布博客于 2 年前

解决VMware创建Linux系统虚拟机进行磁盘扩容后容量大小并未改变

Ubuntu linux系统下 su:出现: authentication failure的解决办法https://blog.csdn.net/li235456789/article/details/50857249VMware中调大虚拟硬盘容量以后ubuntu中硬盘容量为什么不变?https://zhidao.baidu.com/question/226727679897789...
原创
9398阅读
0评论
1点赞
发布博客于 2 年前

查看cuda和cudnn版本win&linux

windows系统:cuda:nvcc -V或者打开cuda安装文件夹 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0 中的 version.txt 文件查看我的cuda版本为9.0.176也可以直接 win+R 打开命令行cmd, 输入以下命令进行查询cd C:\Program Files\...
原创
11379阅读
2评论
5点赞
发布博客于 2 年前

mysql学习笔记——增删改查基本数据库操作指南

简介数据库(database)是按照一定的数据结构来组织、存储和管理数据的仓库。mysql是常用的关系型数据库(将数据保存在不同表中)之一。其数据库特点:MySQL 是开源的,所以你不需要支付额外的费用。 MySQL 支持大型的数据库。可以处理拥有上千万条记录的大型数据库。 MySQL 使用标准的 SQL 数据语言形式。 MySQL 可以运行于多个系统上,并且支持多种语言。这些编程语...
原创
212阅读
0评论
0点赞
发布博客于 2 年前

深度学习中各种神经网络小结(感知机、神经网络CNN/RNN、激活函数、过拟合)

感知机多个输入,只有一个输出输入和输出间学习一个线性关系增加一个激活函数(符号函数)得到一个二分类输出结果1或-1模型局限性:仅用于二分类模型,无法学习更复杂的非线性模型,因此工业界无法应用神经网络对感知机做了改进和扩展:1、加入隐藏层,隐藏层可以是多层或单层,层数越多,模型表达能力越强,复杂度也越高2、多个输出,可用于分类回归、降维聚类...
原创
984阅读
0评论
0点赞
发布博客于 2 年前

【机器学习/深度学习】学习笔记——易混淆和常见的专有名词、概念

pythona.append(b)>>> a = [1,2,3]>>> b = [4,5,6]>>> a.append(b)>>> a[1, 2, 3, [4, 5, 6]]a.extend(b)>>> a = [1,2,3]>>&gt
原创
194阅读
0评论
0点赞
发布博客于 2 年前

实际工程问题中应用机器学习和深度学习的踩坑心得总结

数据样本一开始会偏好去套用论文中的各种华丽算法,希冀提高百分之几的指标,最后“啪啪啪”打脸,发现还是那句老话说得好,“对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限”。所以追本溯源,提高结果的关键手段之一是提高数据和特征的质量和数量,这能达到快速提高指标结果的目的。增加训练样本数量,收集更多的数据 优化数据清洗 改善样本分布特征工...
原创
360阅读
0评论
0点赞
发布博客于 2 年前

2018“达观杯”文本智能处理挑战赛心得

达观杯是一个NLP文本处理比赛,由达观数据公司主办,具体信息参考此比赛网址。为了熟悉一下算法比赛的流程,报名并参加了这个比赛,此比赛已经结束了,但是仍然可以报名参加获取分数和排名,这个kaggle的比赛一样,我觉得对于新人练手来说还是很方便的。废话不多说,以下详述比赛流程。环境配置win10 python3.6 pycharm jupyter notebook scikit-lea...
原创
499阅读
0评论
2点赞
发布博客于 2 年前

达观数据个性化推荐系统实践-于敬

个性化推荐已经成为现代人们生活的一部分, “猜你喜欢”、“相关阅读”你一定并不陌生。计算机如何做到对用户投其所好?企业在做个性化推荐时要如何精准把握用户兴趣?如何解决冷启动问题?如何避免推荐结果的单调与重复?在CSDN学院与AI科技大本营的公开课上,达观数据联合创始人于敬进行了《个性化推荐系统实践》的主题分享,深入浅出的讲解了个性化推荐的过程、难点及解决方法。本资源为公开课内容整理PPT。 一、推荐系统概述 二、搭建推荐系统的关键算法 三、推荐系统难点分析和解决方法 四、深度学习在推荐系统中的应用 五、进阶资源推荐
pdf
发布资源于 2 年前

《百面机器学习——学习笔记》个性化推荐系统

冷启动冷启动问题:在没有大量用户数据的情况下如何给用户进行个性化推荐冷启动目的:最优化点击率、 转化率或用户体验(用户停留时间、 留存率等)冷启动问题分类:用户冷启动:指对一个之前没有行为或行为极少的新用户进行推荐 物品冷启动:指为一个新上市的商品或电影(这时没有与之相关的评分或用户行为数据) 寻找到具有潜在兴趣的用户 系统冷启动:指如何为一个新开发的网站设计个性化推荐系统解...
原创
432阅读
0评论
0点赞
发布博客于 2 年前

《百面机器学习——学习笔记》2、模型评估

前言“没有测量,就没有科学。” ——门捷列夫1、评估指标的局限性奢侈品广告投放问题,训练奢侈品用户数据模型,准确率高,但非奢用户仍被投广告问题1 准确率的局限性。难度:★☆☆☆☆解答:准确率(Accuracy):分类正确的样本占总样本个数的比例缺点:当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。改进:平均准确率(每个类别下的样本准...
原创
266阅读
0评论
0点赞
发布博客于 2 年前

《百面机器学习》学习笔记 1、特征工程

前言对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。定义特征工程:是对原始数据进行一系列工程处理, 将其提炼为特征, 作为输入供算法和模型使用。 从本质上来讲, 特征工程是一个表示和展现数据的过程。 在实际工作中, 特征工程旨在去除原始数据中的杂质和冗余, 设计更高效的特征以刻画求解的问题与预测模型之间的关系。常见数据类型结...
原创
229阅读
0评论
0点赞
发布博客于 2 年前

Linux离线安装keras报错解决方案

由于服务器处于断网状态,所以使用了离线下载whl文件安装的方法,具体操作可以参考这篇博客https://blog.csdn.net/m511655654/article/details/85274861去https://pypi.org/下载了Keras-2.2.4-py2.py3-none-any.whl文件,使用 pip install 安装,发现报错Processing ./K...
原创
1049阅读
0评论
0点赞
发布博客于 2 年前

记2019年1月9日微信之父张小龙演讲有感

记2019年1月9日微信之父张小龙演讲有感 1、一款好的产品是能够通过设计带给用户神秘感,给予用户思考空间,爆发想象力产品的开机画面亦是如此:一个人站在月球前 一个人站在地球前 一朵花,花语:因为看见,所以存在2、好的产品要有底线,有坚持产品图标、产品开机画面不做广告、不做节日运营等,产品不是克制,只是遵循设计原则和美感3、对于增长,心态平和前不久,微信的DAU达...
原创
1184阅读
0评论
0点赞
发布博客于 2 年前

用户画像如何构建

看到了一系列搭建用户画像的文章,但没有形成专栏,在此博客收藏整理,方便以后使用。 用户画像(一)|计划制定 用户画像(二)|为“一面APP”数据建模 用户画像(三)|通过用户对不同文章的不同行为(浏览、点赞、评论、分享)提取用户标签 爬取简书百万页面 分析简书用户画像...
原创
398阅读
0评论
1点赞
发布博客于 2 年前

turtle安装以及python3安装报错解决方案,用python画小猪佩奇

前言turtle(海龟库)是python的一个绘制图像的函数库,它就像海龟一样,给定指令和坐标,在画布坐标系中一步一步绘制出你想要的图形,比如小猪佩奇、哆啦A梦、皮卡丘等。 安装看着这么多卡通图形,博主就安奈不住自己想要安装尝试绘制卡通图,python3.6环境中输入了万能安装指令pippip insta...
原创
12211阅读
17评论
17点赞
发布博客于 2 年前

Kaggle泰坦尼克号之灾

kaggle比赛地址:Titanic: Machine Learning from Disaster相关比赛背景、数据等都可在网站查看。1、环境配置windows 10 python 3.6 pandas numpy jupyter notebook seaborn 2、数据分析# 载入pandas包来读取csv格式的数据集import pandas as pd...
原创
596阅读
1评论
0点赞
发布博客于 2 年前

python爬取新浪微博大V的所有微博内容

相关github地址:https://github.com/KaguraTyan/web_crawler一般做爬虫爬取网站时,首选的都是m站,其次是wap站,最后考虑PC站,因为PC站的各种验证最多。当然,这不是绝对的,有的时候PC站的信息最全,而你又恰好需要全部的信息,那么PC站是你的首选。一般m站都以m开头后接域名, 我们这次通过m.weibo.cn去分析微博的HTTP请求。准备工作...
原创
5507阅读
12评论
4点赞
发布博客于 2 年前

Win/Linux系统如何离线安装python第三方库文件whl | tar.gz

在联网的状态下,通常使用 pip install XX 即可安装相应第三方库,但是有时候服务器会考虑安全性问题,服务器是处于离线断网状态。所以需要一些操作步骤进行第三方库的离线安装。PyPI(Python Package Index)是python官方的第三方库的仓库,所有人都可以下载第三方库或上传自己开发的库到PyPI。PyPI推荐使用pip包管理器来下载第三方库。pip可正常工作在Win...
原创
12631阅读
1评论
10点赞
发布博客于 3 年前

tensorflow报错解决方案:ValueError: Variable bidirectional_rnn/fw/lstm_cell/kernel already exists, disallow

ValueError: Variable bidirectional_rnn/fw/lstm_cell/kernel already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at:  File "XX.py", line 1...
原创
4542阅读
0评论
2点赞
发布博客于 3 年前

pycharm中如何删除bookmark

打开pycharm,程序某一行序号出出现书签bookmark,编号为9如果想要删除bookmark,将光标移至bookmark所在行,按快捷键F11 即可消除如果想要创建bookmark,将光标移至所在行,按快捷键Ctrl+F11 即可添加如果想要查看bookmark所有书签位置:Shift + F11   ...
原创
11016阅读
0评论
8点赞
发布博客于 3 年前

pycharm中如何删除bookmark

打开pycharm,程序某一行序号出出现书签bookmark,编号为9如果想要删除bookmark,将光标移至bookmark所在行,按快捷键F11 即可消除如果想要创建bookmark,将光标移至所在行,按快捷键Ctrl+F11 即可添加如果想要查看bookmark所有书签位置:Shift + F11   ...
原创
11016阅读
0评论
8点赞
发布博客于 3 年前

Windows10环境下通过虚拟机VMware12.5.9安装Linux Ubuntu16.04

摘要:本文主要通过使用虚拟机VMware12.5.9,在windows10环境下安装Linu系统Ubuntu16.04,并使用Xshell连接服务器进行远程控制。1、下载安装虚拟机网上虚拟机有很多软件,这里使用VMware点击此处进入VMware官网下载打开页面后,选择VMware的版本Version12.5.9,选择Windows 64位,开始下载使用管理员身份打开安装文...
原创
8968阅读
1评论
4点赞
发布博客于 3 年前

【资源整合帖】机器学习&深度学习,如何从入门到高手

用来收集各类资源,各大包括机器学习ML、深度学习DL、自然语言处理NLP、机器视觉等方向,更新ing~课程资源很多视频课程网易云课堂、腾讯课堂、MOOC等视频学习类网站都有资源,but,基本上B站上都有搬运工 ,有弹幕解释,有评论提供资料、作业、解析等,所以——B站大法好!1.软件基础视频教程:莫烦python:python入门学习视频教程,小哥哥讲的很好 Tensorflo...
原创
468阅读
0评论
0点赞
发布博客于 3 年前

python3.x运行程序报错AttributeError: 'dict' object has no attribute 'iteritems'

python3.x中运行程序报错 AttributeError: 'dict' object has no attribute 'iteritems'classCount={} classCount.iteritems()原因:{}.iteritems()是python2.x中的方法,python3.x中iteritems变为items,更改为classCount={} ...
原创
840阅读
0评论
1点赞
发布博客于 3 年前

pycharm中使用正则表达式批量添加print括号

网络下载的python代码,版本参差,从python2.x迁移python3.x的过程中,存在print语法问题,即python2.x中print无括号,python3.x中print有括号。逐行添加括号未免效率过低,因此,可使用正则表达式的方法,提供解决方法。1、在pycharm编译器中,Ctrl+R调出替换功能框,勾选“Regex”,选择正则表达式替换方法2、 从上到下,第...
原创
1745阅读
0评论
2点赞
发布博客于 3 年前

python3中安装LTP报错“Failed building wheel for pyltp”的解决办法

win10环境下,使用 pip install pyltp 安装LTP时,命令行报错 Failed building wheel for pyltp解决方法:先下载ltp对应python版本的whl文件pyltp-0.2.1-cp35-cp35m-win_amd64.whlpyltp-0.2.1-cp36-cp36m-win_amd64.whl云盘下载地址链接:http...
原创
6098阅读
17评论
6点赞
发布博客于 3 年前

【机器学习--学习笔记】大规模机器学习

此处对比批量梯度下降、随机梯度下降、小批量梯度下降算法的优缺点算法 批量梯度下降(Batch Gradient Descent, BGD) 随机梯度下降(Stochastic Gradient Descent, SGD) 代价函数 梯度下降算法 比较 每一次更新参数θ时,都需要计算所有m个训练样本的差平方项求和,然后更新一次θ值,当...
原创
138阅读
0评论
0点赞
发布博客于 3 年前

Navicat连接mysql报错【1045 - Access denied for user 'root'@'localhost'(using password: YES)】

win10使用Navicat连接mysql8.0时,出现报错【1045 - Access denied for user 'root'@'localhost'(using password: YES)】或者,命令行连接mysql时,报错【ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: ...
原创
33845阅读
18评论
6点赞
发布博客于 3 年前

经典机器学习与深度学习算法梳理

针对一些常见的机器学习算法,总结算法的思路、流程、应用和优缺点等。k近邻算法(kNN) 简单地说,k近邻算法采用测量不同特征值之间的距离方法进行分类。 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本...
原创
243阅读
0评论
1点赞
发布博客于 3 年前

python数据挖掘分析微信朋友圈(调用itchat库)

参考https://blog.csdn.net/qinyuanpei/article/details/79360703,基于python3.6实现微信朋友圈性别、地区、个性签名、头像四个维度的分析。GitHub项目地址:https://github.com/KaguraTyan/wechat_analysis_itchat1、准备工作1.1 环境要求WIN10 python3.6...
原创
3259阅读
7评论
1点赞
发布博客于 3 年前

python实战项目示例 :揭秘微信朋友圈(调用wxpy库)

通过python,连接到微信账号,收集好友性别、城市、个性签名等公开信息,使用 Python 进行数据统计与分析,得到你专属的朋友圈的分析报告!github地主:https://github.com/KaguraTyan/wechat_analysis_wxpy1、准备工作1.1 环境配置编译环境:Windows10编程语言:Python3.6编译器IDE:Pycharm...
原创
6951阅读
5评论
6点赞
发布博客于 3 年前

python报错解决方法:module 'scipy.misc' has no attribute 'imread'

运行python程序,使用scipy.misc import imread时,报错:module 'scipy.misc' has no attribute 'imread'。报错原因:查看scipy.misc帮助文件得知,imread依赖于pillow解决方法在该python环境中,安装Pillow即可pip3 install Pillow ...
原创
15607阅读
4评论
0点赞
发布博客于 3 年前

【leetcode】python算法题库——简单难度【3】

118.杨辉三角给定一个非负整数numRows,生成杨辉三角的前numRows行。在杨辉三角中,每个数是它左上方和右上方的数的和。示例:输入: 5输出:[ [1], [1,1], [1,2,1], [1,3,3,1], [1,4,6,4,1]]代码:class Solution: def generate(self...
原创
2778阅读
0评论
0点赞
发布博客于 3 年前

【leetcode】python算法题库

859.亲密字符串给定两个由小写字母构成的字符串A和B,只要我们可以通过交换A中的两个字母得到与B相等的结果,就返回true;否则返回false。示例 1:输入: A = "ab", B = "ba"输出: true示例 2:输入: A = "ab", B = "ab"输出: false示例 3:输入: A = "aa", ...
原创
511阅读
0评论
0点赞
发布博客于 3 年前

【leetcode】python算法题库——简单难度【2】

66.加一给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储一个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。示例1:输入: [1,2,3]输出: [1,2,4]解释: 输入数组表示数字 123。示例2:输入: [4,3,2,1]输出: [4,3,2,2]解释: 输入数组表...
原创
252阅读
0评论
0点赞
发布博客于 3 年前

sublime text报错解决方法:XXX\python.exe: can't find '__main__' module in ''

打开sublime text,运行一句简单打印“Hello”的语句,出现报错XXX\python.exe: can't find '__main__' module in ''解决方法如下:由于sublime text需要对程序进行保存后才能运行,所以使用sublime text时,先保存程序文件,再运行(windows编译程序快捷键:Ctrl+B)程序即可。...
原创
8554阅读
1评论
6点赞
发布博客于 3 年前

【leetcode】python算法题库——简单难度【1】

编程基础知识算法复杂度编写程序需要注重算法复杂度,刷题时也存在多解,如何找到最优解成为一个需要重点关注的方向。算法复杂度:是指算法在编写成可执行程序后,运行时所需要的资源,资源包括时间资源和内存资源。应用于数学和计算机导论。同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考...
原创
2166阅读
0评论
6点赞
发布博客于 3 年前

【深度学习】Tensorflow函数详解

 目录tf.truncated_normaltf.random_normaltf.nn.conv2dtf.nn.max_pooltf.reshapetf.nn.softmaxtf.reduce_sumtf.reduce_max,tf.reduce_meantf.train.Optimizertf.train.GradientDescentOptimize...
原创
782阅读
0评论
1点赞
发布博客于 3 年前

【深度学习】Tensorflow——CNN 卷积神经网络 2

转自https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-05-CNN3/目录图片处理 建立卷积层 建立全连接层 选优化方法 完整代码这一次我们一层层的加上了不同的 layer. 分别是:convolutional layer1 + max pooling; convolution...
转载
143阅读
0评论
1点赞
发布博客于 3 年前

【深度学习】Tensorflow——CNN 卷积神经网络 1

转自https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-04-CNN2/这一次我们会说道 CNN 代码中怎么定义 Convolutional 的层和怎样进行 pooling.基于上一次卷积神经网络的介绍,我们在代码中实现一个基于MNIST数据集的例子目录定义卷积层的 weight bias 定...
转载
205阅读
0评论
0点赞
发布博客于 3 年前

Pycharm报错解决方法:No R interpreter defined

安装完成pycharm后,打开界面时,右下角经常出现红色警告:No R interpreter defined: Many R related features like completion, code checking and help won't be available. You can set an interpreter under Preferences->Language...
原创
23901阅读
2评论
12点赞
发布博客于 3 年前

【深度学习】Tensorboard 可视化好帮手2

转自https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/4-2-tensorboard2/目录要点 制作输入源 在 layer 中为 Weights, biases 设置变化图表 设置loss的变化图 给所有训练图合并 训练数据 在 tensorboard 中查看效果 完整代码...
转载
224阅读
0评论
0点赞
发布博客于 3 年前

【深度学习】Tensorboard 可视化好帮手1

转自https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/4-1-tensorboard1/注意: 本节内容会用到浏览器, 而且与 tensorboard 兼容的浏览器是 “Google Chrome”. 使用其他的浏览器不保证所有内容都能正常显示.学会用 Tensorflow 自带的 tensorboard ...
转载
113阅读
0评论
0点赞
发布博客于 3 年前

【深度学习】Tensorflow可视化教学

为Tensorflow 2017 打造的新版可视化教学代码,转自莫烦pythonhttps://github.com/MorvanZhou/Tensorflow-Tutorial If you'd like to use PyTorch, no worries, I made a new PyTorch Tutorial just like Tensorflow. Here is th...
转载
340阅读
0评论
0点赞
发布博客于 3 年前

【深度学习】Tensorflow建造神经网络

转自莫烦python教程https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/3-2-create-NN/ 目录add_layer 功能 导入数据 搭建网络 训练 matplotlib 可视化 完整代码建造一个完整的神经网络,包括添加神经层,计算误差,训练步骤,判断是否在学习....
转载
124阅读
0评论
0点赞
发布博客于 3 年前

【深度学习】Tensorflow 基础构架

目录Session 会话控制Variable 变量Placeholder 传入值添加层 def add_layer()定义 add_layer() Session 会话控制Session 是 Tensorflow 为了控制,和输出文件的执行的语句. 运行 session.run() 可以获得你要得知的运算结果, 或者是你所要运算的部分.首先,我们这次需要加载 Ten...
转载
86阅读
0评论
0点赞
发布博客于 3 年前

【深度学习】Tensorflow线性结构实现示例

转自莫烦python的深度学习Tensorflow视频教程https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/2-2-example2/完整代码github地址https://github.com/MorvanZhou/tutorials/blob/master/tensorflowTUT/tf5_exa...
转载
166阅读
0评论
0点赞
发布博客于 3 年前

【机器学习-学习笔记】神经网络(前向传播算法、反向传播算法)

基本架构神经网络分类示例:前向传播:计算神经网络预测结果,从第一层开始正向一层一层进行计算,直到最后一层的反向传播:计算代价函数的偏导数,首先计算最后一层(输出层)的误差,然后再一层一层反向求出各层的误差,知道倒数第二层(不计算输入层,输入层没有误差)。前向传播算法:神经网络用于分类场景:神经网络代价函数:反向传播算法:小...
原创
707阅读
0评论
0点赞
发布博客于 3 年前

【机器学习-学习笔记】单/多变量线性回归、多项式回归、逻辑回归、过拟合、正则化

问题 描述 表达式描述 表达式 单变量线性回归 只含有一个特征/输入变量 一元一次表达式 多变量线性回归 含有多个特征/输入变量 多元一次函数 多项式回归 含有多个特征/输入变量 多元多次函数 逻辑回归 含有多个离散输出,解决分类问题 sigmoid函数 过拟合 有效适应训练...
原创
1156阅读
0评论
0点赞
发布博客于 3 年前

【机器学习-学习笔记】吴恩达老师机器学习课的笔记(黄海广博士)

吴恩达老师机器学习课的笔记github地址:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes,黄海广博士原创,黄海广博士也是这门课的最初翻译者。 《机器学习个人笔记完整版v5.3-A4打印版.pdf》云盘链接:https://pan.baidu.com/s/1G1mDEKmPSr2feoPwbgOu8w 密码:9wi4 ...
原创
17037阅读
9评论
33点赞
发布博客于 3 年前

【机器学习-学习笔记】正则化——过拟合问题解决方法

正则化技术是一种改善或减小过拟合问题的方法。线性回归过拟合问题:逻辑回归过拟合问题:解决过拟合问题:正则化:加入惩罚因子λ(正则化参数),使得高阶项尽可能小(趋近于0),J(θ)曲线越平滑 线性回归的正则化: Logistic 回归的正则化:...
原创
256阅读
0评论
0点赞
发布博客于 3 年前

【机器学习-学习笔记】Logistic 回归

Logistic 回归是广泛使用的分类算法之一。二分类问题举例:垃圾邮件分类、线上交易欺诈分类、肿瘤良恶性分类……线性回归不适用于分类方法。 Logistic 回归:,这是一个sigmoid函数或logistic函数 决策边界:给定参数θ可确定决策边界。代价函数: 高级优化算法多类别分类问题一对多/一对余...
原创
170阅读
0评论
0点赞
发布博客于 3 年前

【机器学习-学习笔记】线性回归 -- 梯度下降vs正规方程 优缺点比较

假设有m个训练样本,n个特征变量梯度下降 正规方程 需要选择学习速率α,运行多次尝试不同的α直到找到合适的α 不需要选取需要选取学习速率α,只需要运行一次计算即可 需要多次迭代,取决于细节,计算可能较慢 不需要进行迭代,计算来检查收敛性 当n很大(上百万)时表现很好,通常很有效 求解时需要计算这一项,该项为的矩阵,对于大多数计算机而言,实现逆矩...
原创
880阅读
0评论
0点赞
发布博客于 3 年前

Citrix Receiver卸载方法

Citrix Receiver卸载方法:一、打开“控制面板”-“卸载”,找到Citrix Receiver,右键“卸载”二、打开“360软件管家”-“卸载”,找到Citrix Receiver,点击“卸载”三、下载官方提供的专业卸载工具ReceiverCleanupUtility进行卸载如果方法一/方法二卸载时,出现报错,采用方法三,亲测有效。1、下载ReceiverCl...
原创
14669阅读
9评论
8点赞
发布博客于 3 年前

OpenCV教程:基础篇

《opencv教程:基础篇》是国内第一本全面介绍opencv的中文版图书,对opencv开放源代码计算机视觉库进行了详细讲解。opencv由一系列c函数和c++类构成,功能涵盖图像处理、计算机视觉和模式识别等领域。opencv实现了大量通用算法,涉及到图像处理、结构分析、运动检测、摄像机定标、三维重建以及机器学习等方面,并有较高的运行效率。 作者: 刘瑞祯 于仕琪 出版社:北京航空航天大学出版社 ISBN:9787811240351 上架时间:2008-7-14 出版日期:2008 年6月 开本:16开 页码:443 版次:1-2
pdf
发布资源于 6 年前