![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
AlanConstantineLau
额......
展开
-
转——Python爬虫 抓取大数据岗位招聘信息(51job为例)
这是一个很硬的转载博客,文章作者是博主原大学基友,现于中科院读直博,个人博客方向是python、爬虫以及自然语言处理。以下是原文链接: Python爬虫 抓取大数据岗位招聘信息(51job为例)...转载 2018-05-19 12:02:06 · 3227 阅读 · 5 评论 -
Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》
一年前写了python简单实战项目:《冰与火之歌1-5》角色关系图谱构建的数据库设计和数据可视化共现图谱的构建,中间唯独缺了数据的采集,因为想着只是个小爬虫,应该无关痛痒,后面也觉得这个系列缺了这一环不完美。前几天想着还是补上,结果发现一年前写的爬虫失效了,故索性就再写一个,然后就想着直接用上现在主流的scrapy框架以及redis、mongodb这两个Nosql好了,以小见大。代码上传到了G...原创 2018-03-23 11:28:33 · 3561 阅读 · 1 评论 -
python实现贝叶斯推断——垃圾邮件分类
理论理论强推阮一峰大神的个人网站 1.贝叶斯推断及其互联网应用(一):定理简介 2.贝叶斯推断及其互联网应用(二):过滤垃圾邮件 非常简明易懂,然后我下面的代码就是实现上面过滤垃圾邮件算法的。前期准备数据来源数据来源于《机器学习实战》中的第四章朴素贝叶斯分类器的实验数据。数据书上只提供了50条数据(25条正常邮件,25条垃圾邮件),感觉数据量偏小,以后打算使用scik...原创 2017-05-11 20:47:34 · 10128 阅读 · 11 评论 -
python实现Canopy算法
前两个月在做项目突然发现Canopy算法发现网上直接用python实现的不多,因为Mahout已经包含了这个算法,需要使用的时候仅需要执行Mahout几条命令即可,并且多数和MapReduce以及Hadoop分布式框架一起使用,感兴趣的可以在网上查阅。但出于学习和兴趣的态度,我更想尝试用python来亲自实现一些底层算法。原创 2017-09-09 10:34:42 · 6850 阅读 · 15 评论 -
python机器学习——KNN算法简单入门(真的很简单!)
所有代码请移步GitHub——kNNbyPython很多人在第一次听到机器学习的时候都不知所措,无从下手。起初我也是这样的,各种看别人的博客,吴恩达的课程也死磕,但效果不佳。后来发现一个神奇的网站k-近邻算法实现手写数字识别系统–《机器学习实战 》,跟着过了一遍之后感觉还不错,也顺便买了《机器学习实战》这本书,接着就正式入坑机器学习。 KNN算法应该是机器学习中最简单的算法之一,作为机器学习...原创 2017-04-30 00:06:29 · 10917 阅读 · 4 评论 -
Python爬虫入门指导
最近很多同学在学习爬虫过程中遇到很多障碍,我总结了一些原因,大多有以下几点: 1、http请求协议不清楚。这里还是强推阮一峰大神的HTTP 协议入门 2、HTML不熟悉,如果想学习爬虫,基本的HTML知识是必不可少的。这里推荐使用w3school的html教程,不要求学的特别深,但至少能够看的懂标签语言,知道属性、定位等概念。 3、python基本语法不扎实。廖雪峰python3教程现在结合另原创 2017-05-16 16:27:06 · 1267 阅读 · 0 评论 -
python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化
同系列博文: python简单实战项目:《冰与火之歌1-5》角色关系图谱构建 python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——数据库设计 Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》先来张Gephi绘制酷炫的人物关系图 图中每个节点代表一个角色,节点与节点之间的连线代表共现,而连线的粗细表示共现的频次多少。节点的大小以及颜色深浅表...原创 2017-05-15 14:32:48 · 23829 阅读 · 21 评论 -
python实现机器学习中的各种距离计算及文本相似度算法
import numpy as npimport math# 依赖包numpy、python-Levenshtein、scipydef Euclidean(vec1, vec2): npvec1, npvec2 = np.array(vec1), np.array(vec2) return math.sqrt(((npvec1-npvec2)**2).sum())# eucli原创 2017-04-03 22:45:07 · 14225 阅读 · 1 评论 -
数据科学项目集
从网上搜集各种数据分析、数据挖掘项目并进行复现。项目里面会写上自己的学习心得,项目的READMED会给出参考和转载的原网址。不仅是学习,也是分享,一周一更。项目地址:DataScienceProjectsRequirements:Python3.6Jupyer notebookrequirements.txt...原创 2019-03-04 20:34:28 · 435 阅读 · 4 评论