自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hadoop: 安装一个单节点集群

Hadoop: 安装一个单节点集群 最近准备开始学习hadoop,所以需要自己配置hadoop集群。短期的目标是学会配置hadoop环境(版本3.2.2 为当前的稳定版本),熟悉linux系统(安装版本Centos8.3)以及初步了解虚拟机模拟客户端以及集群的使用。本文的教程都来来自于hadoop的官网,以及个人在安装过程中,所需要补充的知识。 hadoop官方文档连接:setting up a single node cluster 目的 这份文档的目标是展示如何安装以及配置一个单节点集群,这样我们可以快

2021-04-25 17:05:24 173

转载 centos8 配置静态ip

学习hadoop需要配置多个虚拟机的IP,静态ip方便管理 1.找到CentOS8网络配置文件 /etc/sysconfig/network-scripts/ifcfg-ens33 2. 编辑该文件 vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE=Ethernet PROXY_METHOD=none BROWSER_ONLY=no #使用静态IP BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=no IP

2021-04-25 13:54:03 217

原创 Centos 8.3设置初始启动模式

旧修改方式 今天安装好了Centos8.3的虚拟机,但是我不想要使用X-windows启动。通过baidu搜索了一番,都是旧的解决方案。 如下述: 早期版本修改默认启动方式的办法 旧的解决方案首先要编辑 /etc/inittab. 当我们使用vi /etc/inittab命令进入该文件的时候,就会发现这个inittab文件已经不再使用了 以前的runlevel也不再使用了,而是使用‘targes’。 新修改方法 使用下面第一个指令,可以查询当前的默认启动方式 使用第二个指令,就是设置默认启动方式,TARG

2021-04-21 16:57:32 238

原创 Task 4.爬虫学习

腾讯新闻爬取 任务目标: 了解ajax加载 通过chrome的开发者工具,监控网络请求,并分析 用selenium完成爬虫 了解ajax加载 当我们使用requests抓取页面的时候,可能抓取的页面和看到的页面是不一样的。这是因为我们获取的是服务器发给我们的原html文档,当我们使用游览器来解析这个页面的时候,游览器中的页面则是经过js处理数据后生成的结果。这些数据源可能来自己Ajax,可能包...

2020-04-27 16:51:29 107

原创 Task 3 爬虫学习

3.1 selenium 学习 什么是selenium? 一个web应用测试工具。可以起到模拟用户在游览器的操作 3.2 ip代理 作为用户方,我们自然想去互联网上获取我们想要的信息。 但是对于服务端,会面临几种情况: 1. 资源库被别人恶意使用,用作商业用途 2. 导致服务器压力过大,就是简单的ddos攻击 那么服务端就需要识别爬虫: 单个ip 短时间内,大规模增多。长时间,有规律的访问。...

2020-04-25 23:40:35 86

原创 Task Two. 爬虫学习

2.1 beautiful库入门 1. beautfulsoup基础知识 2. 使用beautifulsoup解析HTML页面 * beautiful soup 是一个HTML/XML解析器 * 原理:基于DOM,载入整个文档作解析。 * 优点: - 解析HTML非常简单,API人性化,支持(css选择器,标准库中的解析器以及lxml中的XML解析器) * 缺点:因为要载入整个文档,所以时...

2020-04-23 21:48:34 116

原创 Task One. 爬虫学习

TasK One. 基础知识学习 1. 什么是互联网? 因特网:遵循一组特定的通信协议族(网络协议族)连接的多个结点(可以是简单的设备,但通常而言是一个网络),组成的一个巨型网络。类似一个巨大的通信系统(类似于物流系统) 网络协议族:针对不同的功能,我们需要有不同的通信协议。比如超文本之间的传输,文件的传输等等。这些网络协议们,统称为网络协议族 互联网:狭义来说,两台设备之间能相互通信,就可以被称...

2020-04-21 17:10:45 255

原创 DataMining Playground Task 3

学习内容: 使用下面模型对数据进行分类(包括:模型构建&调参&性能评估): 1)逻辑回归(LR)模型,学习理论并用Task2的特征实践; 2)支持向量机(SVM) 模型,学习理论并用Task2的特征实践; 3)尝试线上提交结果 4)[可选]尝试其他基本模型(不是集成模型哟) 尝试了一些模型,由于时间的问题,只有用了训练集和验证集来做实验。 没有时间用整个训练集,训练模型并预测模型,...

2019-03-07 17:35:30 99

原创 DataMining Playground Task 2

学习内容 对文本特征进行预处理,将文本转成向量表示: 1) 学习TF-IDF理论并实践; 2) 学习word2vec词向量原理并实践; 3)[可选]特征选择&特征构建 ...

2019-03-05 19:40:34 144

原创 DataMining Playground task 1:

Task 1: 下载数据,读取数据,观察数据 将训练集拆分为训练集和验证集。要求:数据3-7分,随机种子2019 分享自己对数据以及赛题的理解和发现 代码: ...

2019-03-01 15:54:31 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除