![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
文章平均质量分 91
Joyce_Ff
Joyce编程学习日记
展开
-
通过爬取前程无忧网站数据分析上海互联网行业招聘状况
1、项目要求内容完整程度、可用性(可操作、易操作、美观)、时间先后、先进性等。2、项目内容 爬取前程无忧网站(网址:https://www.51job.com/)上的工作招聘信息(截止2018年11月5日),分析工作需求量、工作地点等数据。 工作招聘种类众多,为简化数据量,我在这里选取的是上海地区的互联网/电子商务行业的工作招聘,以此来分析上海地区的...原创 2018-11-07 15:35:55 · 2125 阅读 · 6 评论 -
克服反爬虫机制爬取智联招聘网站
一、实验内容1、爬取网站: 智联招聘网站(https://www.zhaopin.com/)2、网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬取速度):因此,我准备使用代理IP池爬取数据。网上多为付费的代理IP池,免费的IP池不稳定,因此我准备通过爬取有关代理IP池的网站上的IP地址搭建自己的代理IP池。3、备注...原创 2019-04-28 21:00:39 · 10733 阅读 · 27 评论 -
通过TF-IDF算法进行文本分析与实体识别,利用倒排索引进行计算优化
一、目的掌握并理解实体识别的方法理解TF-IDF算法二、环境Windows10操作系统、Python3.6、PyCharm三、内容利用文本分析技术进行关于两个商品数据集(Amazon和 Google的众多商品的数据记录文件)的实体识别。在我的下载里可以找到实验数据。【我不太明白这个下载积分怎么设置哎,没看到修改积分的按钮之类的,它就自动给我弄成5积分了,...原创 2019-04-25 16:14:49 · 1699 阅读 · 0 评论 -
冰山立方体BUC算法(附测试集和完整代码)
目录:算法思路算法实现算法运行结果一、算法思路设想的算法分为三部分:1、计算输入数据的维数、每个维的基数、每个维的取值个数以及每个维的取值。2、设计一个函数,参数为一个列表,计算该列表在数据集中的支持度。3、遍历将满足最小支持的数据筛选出来。二、算法实现1、基本量的计算# 每个维的基数Cardinality = [0 for x in r...原创 2019-06-01 08:53:16 · 2064 阅读 · 1 评论 -
DBSCAN算法python实现(附完整数据集和代码)
目录:一、算法思路二、算法实现三、算法实现过程中遇到的问题四、算法运行结果一、算法思路DBSCAN算法的核心是“延伸”。先找到一个未访问的点p,若该点是核心点,则创建一个新的簇C,将其邻域中的点放入该簇,并遍历其邻域中的点,若其邻域中有点q为核心点,则将q的邻域内的点也划入簇C,直到C不再扩展。直到最后所有的点都标记为已访问。点p通过密度可达来扩大自己的“地盘”,...原创 2019-06-14 10:51:30 · 36299 阅读 · 28 评论