自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

德鲁大叔的博客

不积跬步,无以至千里!

  • 博客(6)
  • 收藏
  • 关注

原创 爬虫快速入门(二):动态页面抓取

上一篇文章简单介绍了静态网页的爬取,今天和大家分享一些动态网页爬取的技巧。什么是动态网页呢,举个很常见的例子,当我们在浏览网站时,随着不断向下滑动网页,当前页面会不断刷新出新的内容,但浏览器址栏上的URL却始终没有变化。这种由JavaScript动态生成的页面,当我们通过浏览器查看它的网页源代码时,往往找不到页面上显示的内容。抓取动态页面有两种常用的方法,一是通过JavaScript逆向工程获取动态数据接口(真实的访问路径),另一种是利用selenium库模拟真实浏览器,获取JavaScript渲染后的内

2021-03-06 10:40:47 1791

原创 爬虫快速入门(一):静态页面爬取

在这个数据为王的时代,掌握一手好的模型炼丹技巧还远远不够,有时候就是那么一小撮数据,就会对模型性能产生至关重要的影响。虽说大一点的公司一般都有专门负责爬虫的同学,但求人不如求己,每一位炼丹师都应该掌握一些基本的爬虫知识。本篇文章就和大家聊一聊如何通过爬虫,获得自己想要的数据。今天先来讲讲相对简单的静态页面爬取,不同于动态页面,静态页面是存在于服务器(访问时没有查数据库的过程),不含程序,不可交互。简单来说,我们想要爬取的内容都可从网页源码直接解析得到。在爬取这类网页时,一般分为三步:模拟浏览器的真实请

2021-03-04 01:23:48 958 1

原创 关联分析--Apriori算法

把机器学习实战上的代码敲了一遍由于python2报错的地方修改了仅供参考def loadDataSet(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]def createC1(dataSet): C1=[] for transaction in dataSet: for item in transacti...

2018-09-22 21:25:07 301

原创 K-Means聚类算法实现

《机器学习实战》中关于kmeans的代码会报各种错误修改后的代码如下供大家参考def loadDataSet(fileName): dataMat=[] fr=open(fileName) for line in fr.readlines(): curLine=line.strip().split(' ') fltLine=li...

2018-09-21 16:43:48 255

原创 机器学习--LR算法实现

numpy库下的实践:import numpy as npimport matplotlib.pyplot as plt#加载数据def loadDataSet():dataMat=[]; labelMat=[]fr=open('testSet.txt')for line in fr.readlines():lineArr=line.strip().split() ...

2018-09-17 22:50:57 664

原创 Zookeeper异常ConnectionLossException: KeeperErrorCode = ConnectionLoss for /eclipse解决

最近在运行Zookeeper程序时,eclipse报如下错误:Exception in thread "main" org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /eclipse在网上搜了很多答案,把防火墙关了,还是报错,其他的答案也都没能解决问题...

2018-03-04 15:51:33 3408

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除