自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 机器学习基础算法——Logistics Regression(逻辑回归)

机器学习基础算法——Logistics Regression文章目录机器学习基础算法——Logistics Regression前言从线性模型到逻辑回归线性分类模型逻辑回归模型问题定义优化问题总结前言In statistics, the logistic model (or logit model) is used to modelthe probability of a certain class or event existing. --Wikipedia根据维基百科的定义,逻辑回归用

2021-01-11 23:13:09 220

原创 HappyBase安装&Python操作HBase

本教程主要是实现用Python语言操作Hbase。主要通过HappyBase这个包来实现。

2017-10-07 21:23:56 3824

原创 基于Selenium与图像识别的百度指数爬虫

在参与一个项目的时候,得到了这样一个需求,需要我用爬虫爬取某个关键词的百度指数,而当我打开网址后http://index.baidu.com/,简单登陆输入关键词后,发现事情并不那么简单。

2017-09-21 20:18:11 7637 2

原创 Scrapy爬虫(三)——简易动态网页爬虫

Scrapy爬虫(一)——你的第一个Scrapy爬虫Scrapy爬虫(二)——自定义Item和代理访问的爬虫如果理解清楚以上这两篇博客,运用scrapy框架爬取一般的网页基本不是什么难题了。可是有些时候我们会遇到动态网页,向下滚动加载的网页便是一种很常见的动态网页,要解决这种网页,我们需要采用phantomjs+scrapy的方法。

2017-08-02 16:21:38 1045

原创 Scrapy爬虫(二)——自定义Item和代理访问的爬虫

在Scrapy爬虫(一)——你的第一个Scrapy爬虫中我们写了一个最简易的爬虫,可是这个爬虫并没有实现保存页面内容的功能。本篇主要会通过pipLine实现页面内容保存以及代理访问的功能。

2017-08-02 15:44:51 1019

原创 Scrapy爬虫(一)——你的第一个Scrapy爬虫

Scrapy简介Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。Scrapy

2017-07-25 12:44:00 1170

原创 基于Hadoop平台下运用PMI指标的组合词判断

关于Hadoop的介绍Hadoop是分布式文件系统(也就是HDFS),或者一个同类的分布式文件系统,管理着集群的数据。hadoop提供了一套基础设施来处理大多数困难的工作以保证任务能够执行成功。MapReduce是一种计算模型,该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务。这些任务的计算结果可以合并在一起来计算最终的结果。关于PMI的介绍

2017-07-16 15:55:04 1412

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除