自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 使用大数据技术 实现爬取招聘网站 & 处理数据后可视化展示

总体实现要求利用Python编写爬虫程序,从招聘网站上爬取数据,使用Flume监控目录将数据存入到HDFS中,将存入的数据使用Hive进行的数据清洗,结果使用Sqoop存入MySQL,最后将分析的结果做数据可视化。Scrapy 爬取数据数据目标网站:51job.com岗位名称:['数据分析', '大数据开发工程师', '数据采集','Python开发工程师']爬取范围:全国数据爬取结果创建 Hive 处理数据表Hive 创建的只是数据映射成的表规则Flume 监控目录上传数据

2020-07-15 11:34:28 1872 2

原创 Spark SQL 2.0.0 坑 小记

问题出现这个异常已在 Spakr SQL 2.0.1 中修复使用 IDEA 配置好 Spark SQL 2.0.0 开始使用 // 构建会话 val ss: SparkSession =SparkSession.builder .master("local") ...

2020-02-20 12:07:47 220

转载 Python爬虫项目:登录正方系统

项目背景我们可以通过爬虫来模拟登录来查询自己的成绩,这其中最重要的就是登录这个关卡,只要通过了,就可以方便的查询自己的成绩了。但是我们还是要在 法律的允许条件下 爬取数据,下列的代码已进行隐私处理,并不针对任何组织。爬虫分析通过抓包,发现登录需要提交 学号 、 密码 、 验证码、VIEWSTATE通过分析发现 其中的VIEWSTATE参数就在网页中,所以我们可以通过正则表达...

2019-11-06 09:07:03 483

转载 Java字符串案例:统计字符串中有多少 大写字母、小写字母、数字和其他字符

统计字符串中有多少 大写字母、小写字母、数字、其他字符提示:char 字节可以 自动转化为 Ascall码 进行比较。首先键盘输入Scanner s = new Scanner(System.in);System.out.print("请输入任意的字符串:");String strs = s.next();把输入的字符串转换成 char[] 数组char[] cha...

2019-11-06 09:05:25 2129

转载 windows-10 改变 添加path环境变量 为表格样式

Windows-10 有时候配置Path环境变量时会变成 Windows-7 配置Path的样子,非常不方便这时我们只需要把 %SystemRoot%; 这个加在 path变量值 的开头,然后确定再打开Path就会变成表格样式了...

2019-10-16 08:28:38 2617

转载 Python 实现 AES 加密 进行 PKCS5Padding 的填充

0x00 Python 需要导入的模块from Crypto.Cipher import AESfrom binascii import b2a_hex, a2b_hex0x01 AES加密代码def AES_encrypt(secret_key,data): """ :param secret_key [str] : 加密秘钥 :param data ...

2019-10-16 08:27:13 4580

转载 Java API 操作 HDFS 文件系统

特别提示执行前需要启动 hadoopIDEA创建Hadoop-Maven项目下载 hadoop.dll 放入windows的C:\Windows\System32下相关环境windows10hadoop 2.9.2 伪分布式搭建idea 2018.3.50x00 JAVA 连接 HDFS配置连接public static final String HDF...

2019-10-16 08:25:22 258

转载 windows-10 安装 Maven 教程

相关版本下载IADE :2018.3.5Maven :3.6.2OS : window_10 64位0x00 解压、配置文件解压apache-maven-3.6.2-bin并创建一个MavenRepository文件夹(本地仓库)配置本地仓库路径修改文件路径:apache-maven-3.6.2-bin\apache-maven-3.6.2\conf\sett...

2019-09-30 11:44:10 176

转载 Hadoop shell 常用命令

0x00 本地文件上传到 HDFS方法一hadoop fs -put test.txt /把 test.txt 放在 hdsf 的根目录方法二hadoop fs -copyFromLocal test.txt /h.txt 把text.txt 放在hdfs根目录上并重命名为 h.txt0x01 文件从HDFS上下载到本地方法一hadoop fs -get /...

2019-09-30 11:42:29 274 1

转载 hadoop 2.9.2 完全分布式搭建

博主学习网站 https://bigdataboy.cn/0x00 相关配置版本hadoop :hadoop 2.9.2 提取码:qtf9jdk : jdk1.8.0_221 提取码:yjwtcentOS : 7.0 提取码:paty三台虚拟机虚拟机 ip 192.168.5.133–>master虚拟机 ip 192.168.5.134–&g...

2019-09-24 21:45:25 657 1

转载 CentOS -7 Python2.7升级Python3.6

相关版本ContOS:7.4原来 Python 版本 2.7.5升级 Python 版本 3.6.30x00 查看Python相关安装路径查看命令 whereis python0x01 下载解压python-3.6.3进入 cd /usr/local/src/下载命令 wget https://www.python.org/ftp/python/3.6.3/Py...

2019-09-22 18:13:00 196

原创 纯 jsp 登录案例

项目结构00x0设置首页<welcome-file-list> <welcome-file>login.jsp</welcome-file></welcome-file-list>00x1 首页表单<form action="do_login.jsp" method="post"> <d...

2019-09-10 21:34:57 310

原创 Python爬虫项目:下载王者荣耀官网所有皮肤并对名称(以后更新的也可以)

分为两步:1.找到皮肤图片的地址函数只需要传入英雄编号即可返回 {皮肤名称:链接地址} 形式def Downloed_ksin(ename, **kwargs): # 英雄详情页 url = 'https://pvp.qq.com/web201605/herodetail/' + ename + '.shtml' html = session.get(url=u...

2019-06-02 18:35:55 4587 13

原创 第五周总结(Python制作淘汰游戏)

用Python制作淘汰游戏:有n个人围成一圈,顺序排号。从第一个人开始报数(从1到3报数),凡报道3的人退出圈子。请问最后留下的是原来第几号的那位。请用程序实现。利用装饰器,当淘汰某个人时,装饰器打印信息为:现在淘汰了XXX号人。People=int(input('输入人数:'))People_list = [] # 人的列表People_num = [] # 辅助列表number=...

2019-03-27 22:08:51 610

原创 一个Java简单的打印

一个简单的打印

2019-03-13 22:21:21 259

转载 一个微软原版软件收藏站点

给大家推荐一个个人性质的微软原版软件收藏站点https://msdn.itellyou.cn/

2019-03-10 12:27:22 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除