- 博客(16)
- 收藏
- 关注
原创 使用大数据技术 实现爬取招聘网站 & 处理数据后可视化展示
总体实现要求利用Python编写爬虫程序,从招聘网站上爬取数据,使用Flume监控目录将数据存入到HDFS中,将存入的数据使用Hive进行的数据清洗,结果使用Sqoop存入MySQL,最后将分析的结果做数据可视化。Scrapy 爬取数据数据目标网站:51job.com岗位名称:['数据分析', '大数据开发工程师', '数据采集','Python开发工程师']爬取范围:全国数据爬取结果创建 Hive 处理数据表Hive 创建的只是数据映射成的表规则Flume 监控目录上传数据
2020-07-15 11:34:28 1872 2
原创 Spark SQL 2.0.0 坑 小记
问题出现这个异常已在 Spakr SQL 2.0.1 中修复使用 IDEA 配置好 Spark SQL 2.0.0 开始使用 // 构建会话 val ss: SparkSession =SparkSession.builder .master("local") ...
2020-02-20 12:07:47 220
转载 Python爬虫项目:登录正方系统
项目背景我们可以通过爬虫来模拟登录来查询自己的成绩,这其中最重要的就是登录这个关卡,只要通过了,就可以方便的查询自己的成绩了。但是我们还是要在 法律的允许条件下 爬取数据,下列的代码已进行隐私处理,并不针对任何组织。爬虫分析通过抓包,发现登录需要提交 学号 、 密码 、 验证码、VIEWSTATE通过分析发现 其中的VIEWSTATE参数就在网页中,所以我们可以通过正则表达...
2019-11-06 09:07:03 483
转载 Java字符串案例:统计字符串中有多少 大写字母、小写字母、数字和其他字符
统计字符串中有多少 大写字母、小写字母、数字、其他字符提示:char 字节可以 自动转化为 Ascall码 进行比较。首先键盘输入Scanner s = new Scanner(System.in);System.out.print("请输入任意的字符串:");String strs = s.next();把输入的字符串转换成 char[] 数组char[] cha...
2019-11-06 09:05:25 2129
转载 windows-10 改变 添加path环境变量 为表格样式
Windows-10 有时候配置Path环境变量时会变成 Windows-7 配置Path的样子,非常不方便这时我们只需要把 %SystemRoot%; 这个加在 path变量值 的开头,然后确定再打开Path就会变成表格样式了...
2019-10-16 08:28:38 2617
转载 Python 实现 AES 加密 进行 PKCS5Padding 的填充
0x00 Python 需要导入的模块from Crypto.Cipher import AESfrom binascii import b2a_hex, a2b_hex0x01 AES加密代码def AES_encrypt(secret_key,data): """ :param secret_key [str] : 加密秘钥 :param data ...
2019-10-16 08:27:13 4580
转载 Java API 操作 HDFS 文件系统
特别提示执行前需要启动 hadoopIDEA创建Hadoop-Maven项目下载 hadoop.dll 放入windows的C:\Windows\System32下相关环境windows10hadoop 2.9.2 伪分布式搭建idea 2018.3.50x00 JAVA 连接 HDFS配置连接public static final String HDF...
2019-10-16 08:25:22 258
转载 windows-10 安装 Maven 教程
相关版本下载IADE :2018.3.5Maven :3.6.2OS : window_10 64位0x00 解压、配置文件解压apache-maven-3.6.2-bin并创建一个MavenRepository文件夹(本地仓库)配置本地仓库路径修改文件路径:apache-maven-3.6.2-bin\apache-maven-3.6.2\conf\sett...
2019-09-30 11:44:10 176
转载 Hadoop shell 常用命令
0x00 本地文件上传到 HDFS方法一hadoop fs -put test.txt /把 test.txt 放在 hdsf 的根目录方法二hadoop fs -copyFromLocal test.txt /h.txt 把text.txt 放在hdfs根目录上并重命名为 h.txt0x01 文件从HDFS上下载到本地方法一hadoop fs -get /...
2019-09-30 11:42:29 274 1
转载 hadoop 2.9.2 完全分布式搭建
博主学习网站 https://bigdataboy.cn/0x00 相关配置版本hadoop :hadoop 2.9.2 提取码:qtf9jdk : jdk1.8.0_221 提取码:yjwtcentOS : 7.0 提取码:paty三台虚拟机虚拟机 ip 192.168.5.133–>master虚拟机 ip 192.168.5.134–&g...
2019-09-24 21:45:25 657 1
转载 CentOS -7 Python2.7升级Python3.6
相关版本ContOS:7.4原来 Python 版本 2.7.5升级 Python 版本 3.6.30x00 查看Python相关安装路径查看命令 whereis python0x01 下载解压python-3.6.3进入 cd /usr/local/src/下载命令 wget https://www.python.org/ftp/python/3.6.3/Py...
2019-09-22 18:13:00 196
原创 纯 jsp 登录案例
项目结构00x0设置首页<welcome-file-list> <welcome-file>login.jsp</welcome-file></welcome-file-list>00x1 首页表单<form action="do_login.jsp" method="post"> <d...
2019-09-10 21:34:57 310
原创 Python爬虫项目:下载王者荣耀官网所有皮肤并对名称(以后更新的也可以)
分为两步:1.找到皮肤图片的地址函数只需要传入英雄编号即可返回 {皮肤名称:链接地址} 形式def Downloed_ksin(ename, **kwargs): # 英雄详情页 url = 'https://pvp.qq.com/web201605/herodetail/' + ename + '.shtml' html = session.get(url=u...
2019-06-02 18:35:55 4587 13
原创 第五周总结(Python制作淘汰游戏)
用Python制作淘汰游戏:有n个人围成一圈,顺序排号。从第一个人开始报数(从1到3报数),凡报道3的人退出圈子。请问最后留下的是原来第几号的那位。请用程序实现。利用装饰器,当淘汰某个人时,装饰器打印信息为:现在淘汰了XXX号人。People=int(input('输入人数:'))People_list = [] # 人的列表People_num = [] # 辅助列表number=...
2019-03-27 22:08:51 610
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人