自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Blessy_Zhu的博客

本人的博客是平常学习的一个知识点记录和学习心得,希望可以和你多一些交流,共同进步

  • 博客(63)
  • 资源 (6)
  • 收藏
  • 关注

原创 Python爬虫之微博评论数据的爬取(十)

微博是中国最早兴起的自媒体平台,人人都可以在上面发表自己的观点。到现在微博已经成为了官方,明星等“新闻发布“的第一阵地。更为重要的是:**==微博不同于QQ空间、微信朋友圈,不需要对方加你,也不需要你关注对方,你就可以看到对方的全部动态,个人信息。所以,微博变成了唯一可以爬的社交媒体平台==。**文章[AJAX数据爬取基本认识及原理](https://blog.csdn.net/weixin_42555080/article/details/88318010)中已经介绍了,Ajax数据的爬取过程。同时作为

2019-03-09 11:44:39 42208 79

原创 LSTM学习

学习LSTM需要通过五大问题来全面的理解:为什么会出现LSTM?LSTM是怎么解决RNN梯度消失的问题的?LSTM的主要内容是什么?LSTM如何代码实现?LSTM现在发展到什么地步(即有哪些变体)?通过这五个问题,了解LSTM的前世今生。

2019-09-30 21:44:56 2806

原创 从全连接神经网络FCN到LSTM

本文主要介绍了深度学习的发展:从感知机、Fisher判别分析,到全连接神经网络、BP神经网络、CNN、RNN、SLTM等等

2019-09-25 21:12:58 3430

原创 TensorFlow的环境配置与安装

TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 。本文将介绍TensorFlow的安装与环境配置

2019-09-10 18:12:57 188934 77

原创 Python爬虫之猫眼APP电影数据(十八)

一声响指,宇宙间半数生命灰飞烟灭。几近绝望的复仇者们在惊奇队长(布丽·拉尔森 饰)的帮助下找到灭霸(乔什·布洛林 饰)归隐之处,却得知六颗无限宝石均被销毁,希望彻底破灭......,今天我们就来用Python爬取猫眼的电影数据

2019-07-14 17:32:11 7288 4

原创 径向基(Radial Basis Function:RBF)神经网络学习笔记

RBF神经网络是为了解决大部分基于反向传播的多层前馈网络的学习算法必须基于某种非线性优化技术的缺点 ,计算量大、学习速度慢的问题。RBF通过使用高斯和函数的方法,使得,网络由输入到输出的映射是非线性的,而网络输出对可调参数而言却又是线性的。网络的权就可由线性方程组直接解出,从而大大加快学习速度并避免局部极小问题。

2019-07-12 16:47:33 7188 4

原创 BP(Back Propagation)神经网络学习笔记

BP神经网络算法是在BP神经网络现有算法的基础上提出的,是通过任意选定一组权值,将给定的目标输出直接作为线性方程的代数和来建立线性方程组,解得待求权,不存在传统方法的局部极小及收敛速度慢的问题,且更易理解。

2019-07-04 19:11:06 54753 10

原创 ANN人工神经网络(Artificial Neuron Network )

这篇内容分别介绍了MP神经元模型、单层神经网络、两层神经网络和常见的激活函数。内容翔实,理解起来较为简单

2019-06-25 16:43:28 7695 4

原创 机器学习---有监督和无监督

监督学习就是:训练的数据包含已知结果,模型相对这些结果进行训练;无监督学习:训练数据不包含任何已知结果。算法自行发现数据中的联系。

2019-06-24 16:27:59 2220

原创 机器学习(十五)-DBSCAN算法及Python实例

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。什么是基于密度的聚类算法?直白翻译就是带有噪声应用的基于密度的空间聚类。

2019-06-20 22:44:45 4486 2

原创 从感知机到深度学习发展史

本篇文章主要介绍了从机器学习到深度学习,从感知机到深度学习的内容。

2019-06-12 21:39:51 3682 1

原创 机器学习(十二)-基于规则的分类器

本文主要介绍给予规则的分类器的相关内容

2019-06-11 09:22:47 11769 3

原创 什么是机器学习

转载:博文计算机的潜意识之从机器学习谈起,原文请点击链接(https://www.cnblogs.com/subconscious/p/4107357.html)强烈推荐一篇关于机器学习入门导论的博文,里面的内容非常详实,加上作者的理解和感悟精华出来的一篇佳作。我从里面抽取出一些重点的内容,在此记录,强烈推荐大家,点击访问上面的那篇文章。1 机器学习的定义从广义上来说,机器学习是一种能够赋...

2019-06-10 19:43:02 11595 3

原创 机器学习(十一)-Naïve Bayes Classifier朴素贝叶斯分类器及Python实现

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素。朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类**别。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性是独立的(独立性假设)。对于某些类型的概率模型,在监督式学**习的样本集中能获取得非常好的分类效果。

2019-06-04 10:04:08 4421

原创 机器学习(十)-KNN算法及Python实现

KNN算法是一个理论上比较成熟的方法,最初由Cover和Hart于1968年提出,其思路非常简单直观,易于快速实现,以及错误低的优点。k-近邻算法(kNN,k-NearestNeighbor),是最简单的机器学习分类算法之一,其核心思想在于用距离目标最近的k个样本数据的分类来代表目标的分类(这k个样本数据和目标数据最为相似)。

2019-06-02 09:56:09 3782

原创 机器学习(九)-k-means算法及优化和Python

K-means算法是很典型的基于距离的聚类算法,采用距离 作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 k-means算法特点在于:同一聚类的簇内的对象相似度较高;而不同聚类的簇内的对象相似度较小

2019-05-29 16:05:42 7670 1

原创 Python爬虫之定时给TA发送微信消息(十七)

对朋友很久没联系不是因为感情变了而是因为生活变了毕竟年龄增长了肩负的责任重了身边的牵挂多了……何不如,写一个程序,每天都给TA发送,TA喜欢的、或者是你想对TA说的话。今天,就利用Python中的wxpy模块,将你想说的话发给TA吧!!!!!!!!!!!!!!!!

2019-05-15 14:30:58 17525 15

原创 Python爬虫之多线程图虫网数据爬取(十六)

今天要爬取的网站是[图虫网](https://tuchong.com/explore/)(网址:https://tuchong.com/explore/),这是一个个人非常喜欢的图片分享展示和交流的平台。上面的作品质量非常高,对于我这个摄影小白来说是一个非常不错的学习和欣赏大家作品的优质平台。没有做广告哦,只是纯属个人喜欢的推荐。本篇博文的主要内容是利用==队列数据存取==以及==多线程爬虫==的方法爬取图虫网上面的图片数据。好啦,ENOUGH TALK,LET‘S START IT!!!!!!!!!!!

2019-05-14 10:11:11 7064 3

原创 机器学习笔记(八)-PCA降维Wine Data Set详细过程

在上一篇博文[机器学习笔记(七)-主成分分析PCA](https://blog.csdn.net/weixin_42555080/article/details/89633287) 中,已经介绍了主成分分析PCA的基本内容。接下来的这篇文章,主要是通过一个多维的数据集,一步步去了解PCA的实现过程和原理。最后通过逻辑回归来拟合用PCA降维处理后的数据集。

2019-05-12 22:42:36 5563 3

原创 Python爬虫之网易云音乐数据爬取(十五)

网易云音乐上面的评论数据具有很重要的作用。通过获取这些评论数据,包括:评论用户ID,评论用户昵称,评论用户位置,评论用户评论内容,该评论被点赞人数,用户头像地址,评论时间等信息。通过用户相关的数据,可以分析用户的组成成分,从而进行更具有针对性的用户推荐,通过评论数据集可以进一步做中文分词、命名实体识别、关键词提取、句法分析、文本向量化、情感分析、舆情分析等进一步的数据处理和应用。本篇博文通过网易云的API接口,来获取数据。

2019-05-11 11:29:50 14123 6

原创 机器学习笔记(七)-主成分分析PCA

这篇博文主要介绍了,PCA主成分分析。首先通过几何概念引出维度爆炸带来的问题,接下来通过PCA数据降维来解决之。在主讲PCA内容时主要介绍了:经典主成分分析、最大投影方差、最小重构距离,SVD奇异值分解。最后通过Python实现PCA。这篇文章就到这里了,欢迎大佬们多批评指正,也欢迎大家积极评论多多交流。

2019-04-28 20:55:58 3591 3

原创 机器学习笔记(六)-支持向量机SVM

本篇内容主要介绍了SVM支持向量机,分别介绍了Hard-Margin SVM中的凸优化、KKT约束、对偶化问题,而且还介绍了Soft-margin SVM的思想,并对SVM的Hard-Margin模型进行验证。这篇文章就到这里了,欢迎大佬们多批评指正,也欢迎大家积极评论多多交流。

2019-04-27 22:21:40 1462 2

原创 机器学习笔记(五)-高斯判别分析

在机器学习笔记(四)-逻辑回归中已经介绍了,软分类又分为概率判别模型:为代表的模型是逻辑回归;还有概率生成模型,为代表的是高斯判别分析(GDA:Guassian Discrimant Analysis)。GDA是本文的主角。本文主要是对GDA算法学习和Python验证

2019-04-25 10:26:22 3167 4

原创 机器学习笔记(四)-逻辑回归

逻辑回归算法讲解与实现

2019-04-24 21:59:17 2073 2

原创 机器学习笔记(三)-线性判别分析

在文章[机器学习笔记(一)-线性回归](https://blog.csdn.net/weixin_42555080/article/details/89357470)中已经介绍了线性回归,文中提到,线性回归是最基本最简单的机器学习算法,但是,在打破线性回归的某一特性时会出现新的算法。正如文章[机器学习笔记(二)-感知机](https://blog.csdn.net/weixin_42555080/article/details/89412841)中介绍的感知机,它是打破了线性中的全局非线性这一性质——它是将

2019-04-24 11:40:39 5889 5

原创 机器学习笔记(二)-感知机

在文章[机器学习笔记-线性回归](https://blog.csdn.net/weixin_42555080/article/details/89357470)中的前言部分已经介绍了,当打破线性回归的某一特性,就会形成新的模型算法,这篇文章介绍的感知机就是尝试打破了线性中的全局非线性这一性质——它是将线性回归得出的值,作为激励函数的输入,进而进行二分类的一种算法。

2019-04-20 11:50:20 1595 2

原创 机器学习笔记(一)-线性回归

在概率引入到机器学习之后,就可以从两个角度:频率角度和贝叶斯角度来讨论问题。其中频率派逐渐发展为统计机器学习;贝叶斯派逐渐发展为概率图模型。今天介绍的Linear Regrssion线性回归分析,在统计机器学习中占据了核心地位,为什么呢?因为它是最基础、最简单的统计机器学习模型。

2019-04-18 14:19:09 1246 2

原创 Python爬虫之豆瓣电影评论数据的爬取(十四)

爬取豆瓣网上面的电影评论数据具有很重要的作用。电影评论数据是NLP(自然语言处理)重要的数据。通过电影评论数据集可以进一步做中文分词、命名实体识别、关键词提取、句法分析、文本向量化、情感分析、舆情分析等进一步的数据处理和应用。既然数据这么重要,废话不多说,紧接着就开始电影数据的爬取。

2019-04-10 20:38:17 21965 12

原创 Python爬虫之微信数据爬取(十三)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言微信作为我们日常交流的软件,越来越深入到我们的生活。但是,随着微信好的数量的增加,实际上真正可以联系的知心人却越来越少了。那么,怎么样能更清...

2019-03-20 22:42:49 26873 6

原创 Python爬虫之手机端微博数据爬取(十二)

文章AJAX数据爬取基本认识及原理中已经介绍了,Ajax数据的爬取过程。同时作为引论,提出了 爬取微博数据时,滚动滑条就会加载很多内容,而这些内容就是通过Ajax将xhr文件从主服务器异步加载到客户端并进行渲染显示的。同时可以看到,页面的URL没有变化,接下来,一步一步的去实现爬虫微博数据。...

2019-03-12 12:06:13 11049 12

原创 微博爬虫基本知识了解(十一)

微博是中国最早兴起的自媒体平台,理念就是人人都是自媒体,人人都可以在这里发表自己的观点。到现在微博已经成为了官方,明星等“新闻发布“的第一阵地,比如政府发条微博向社会通报某件社会事件的进展情况,明星则悄咪咪的发条微博宣布自己的恋情,瞬间微博的服务器表示自己扛不住了!!当然,对于我们普通人,也常会发微博,或者转发,评论来表达自己对于社会事件的观点,也会来表现自己生活的日常,或开心,或吐槽。...

2019-03-11 20:55:19 7240 5

原创 session和Cookies实现会话机制

在写爬虫代码的时候,总是会先去找一个叫Cookie的东西,根据经验,可以知道,这个Cookie是用来保存客户端状态的一个工具,所以要爬取需要登录的网站时,一定要有这个Cookie。但是,其他的内容,就不是太清楚了。所以今天找了一些资料,自己提炼总结,来彻底了解这个叫Cookie的东西。当然,刚才说过了,Cookie是用来记录客户端网站的状态信息,那么在服务器端是用什么来记录网站的状态呢?这就是今天的第二个主人公,叫会话的东西(session)。接下来,废话少说,把他们的来龙去脉走一遍吧!

2019-03-10 22:42:20 2346 4

原创 AJAX数据爬取基本认识及原理

在爬虫的过程中,会看到如下情况,以微博评论为例子:向下滑动滚动条,却发现出现如图1所示的加载延迟(如果网络环境较好,看到的概率较小),摁下F12打开开发者工具后,继续滑动滚动条,里面出现了很多type为xhr的文件,如图2。这个时候,用requests中的get()方法爬取原生的HTML文档,却发现里面并没有要找的加载的评论内容。

2019-03-08 13:41:42 6273 5

原创 数组以及Python中列表、元组的区别

转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080Python的基本数据结构是列表、元组、集合、字典,原则上是没有数组的,但和数组类似的是列表,但是list不具有array的全部属性(如维度、转置等):Python中的数组具有以下性质:元组一旦创建不可改变元组不能追加(append)元素,弹出(pop)元素等;只能...

2019-03-05 21:18:57 1900 2

原创 MySQL数据库下载与安装

一 下载首先进入官网下载安装包1 依次DOWNLOADS—>>Community2 按照箭头指示3 下载最新版本4 注意下载的是MSI版本5 这一步会提示是否免费注册,选择直接下载:6 下载完安装包,如下图,如果不是,应该返回第一步二 安装1 双击打开下载好的安装包,继续如下操作2 这一步是将左侧需要安装的内容,移到右侧3 然后默认4 设...

2019-02-22 21:36:31 46714 25

原创 解析库之Beautiful Soup(二)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述在文章解析库之Beautiful Soup(一)中已经详细介绍了Beautiful Soup库的相关内容,包括解析器、Beautiful So...

2019-02-22 15:42:49 2867 3

原创 解析库之Beautiful Soup(一)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述通过正则表达式的学习,可以是吸纳提取页面信息的功能,(相关内容为:Python小知识-正则表达式和Re库(一)和Python小知识-正则表达式...

2019-02-22 12:24:57 3256 3

原创 数据存储之文件存储(一)-TXT文件存储

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述数据存储是爬虫的一个很重要的部分,爬虫爬出来的数据要不存到文件中,要不就存到数据库中。基于这两个存储思想,保存形式可以动作多样,文件存储有:T...

2019-02-02 23:24:21 3865 4

原创 数据存储之文件存储(二)-JSON文件存储

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述本篇文章主要讲的是JSON文件存储,其中包括JSON库中两个重要函数:loads()-将JSON文本字符串转化为JSON对象;dumps()-...

2019-02-02 22:33:16 2491 5

原创 数据存储之文件存储(三)-CSV文件存储

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述这篇文章主要讲解的是CSV文件存储,主要分为数据的写入,这里面又可以分为结构化数据-字典的写入,一维列表数据的写入、二位列表数据的写入,还会讲...

2019-01-30 14:51:54 4206 3

LSTM详细学习.docx

LSTM学习相关内容。学习LSTM需要通过五大问题来全面的理解:为什么会出现LSTM?LSTM是怎么解决CNN梯度消失的问题的?LSTM的主要内容是什么?LSTM如何代码实现?LSTM现在发展到什么地步(即有哪些变体)?通过这五个问题,了解LSTM的前世今生。

2019-09-30

charfreq.csv

本资源适用于朴素贝叶斯分类器通过姓名判断是男还是女生

2019-06-04

经典算法50题Java版.doc

面试算法入门之经典算法40题(Java版)

2021-01-10

利用ZIPF定律建立有效的WEB对象缓存机制

通过对Web通信量的分析,人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中,为得到所期望的Web对象命中率的要求,设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此,Zipf定律为web缓存结构的设计提供了重要的依据。适当的缓存大小结合P-LFU替换策略可以得到很高的Web缓存命中率。

2019-04-08

KNN算法综述_闭小梅 .pdf

KNN(K最近邻)分类算法是应用最为广泛的分类算法。本文介绍传统的KNN方法的基础上,根据其不足,从降低计算复杂度提高算法的执行效率,相似度度量方法,决策规则等几方面综述KNN改进算法。

2019-05-30

K_means算法研究综述_丛思安.pdf

K-means 算法研究综述,K-means 的发展已经经历了很长的一段时 间,它所具有的独特优势使得其被广大研究者 不断地优化和使用。

2019-05-29

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除