自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

博客

19级毕业大学生

  • 博客(13)
  • 收藏
  • 关注

原创 yarn/historyserver 无法查看历史任务

在使用http://node01:19888/jobhistory/app 来查看历史任务时,发现看不到历史任务。经过查找,发现是配置文件少了一项东西,是要在mapred-site.xml文件中加入如下配置即可路径为$HADOOP_HOME/etc/hadoop/mapred-site.xml添加的配置为 <property> ...

2019-10-07 21:43:02 3448 1

原创 hadoop datanode启动失败 failed to stat a path component: '/var/run/hdfs-sockets'. error code 2

某一天在使用start-dfs.sh启动hdfs时,发现有一个有一个datanode没有启动(node01中的data没有启动)通过查看他的log文件找到了文件,查看日子文件的方式有两种,一种是在浏览器中查看http://node01:50070/logs/hadoop-root-datanode-node01.log 也可以在终端中使用命令来查看tail -20 $...

2019-10-07 21:34:43 1593

原创 Python实现批量梯度下降 随机梯度下降 小批量梯度下降 代码

在学习了有关梯度下降算法后,自己动手实现了一边,选用的也是最为简单的线性回归作为例子梯度下降的的相关原理及推导网上有很多,由于个人不擅长推理总结,我就不再画蛇添足了,贴几个我看完之后觉的不错的帖子,在此感谢各位博主深度解读最流行的优化算法:梯度下降一文看懂常用的梯度下降算法梯度下降的三种形式BGD、SGD、以及MBGD梯度下降的三种形式BGD、SGD、以及MBGD最后两个是不同的博客,但他们的标题...

2018-05-18 18:06:47 10507 7

原创 多线程爬取网易云歌曲评论

之前用爬虫爬取了拉钩网的岗位信息,而那个效率比较低,现在略作升级,做成多线程,目标也换成了网易云。首先在浏览器上打开网易云音乐,找到想要爬取的歌曲,我选择的是《一直很安静》,打开开发者工具,找到网络,在html的响应中并未找到歌曲评论,再到xhr中找,很容易就能找到一个名为R_OS开头的文件包含了我们想要的东西接着我们再跳到参数选项,赫然显示两个非常长的字符串,很明显,这是加密过的,而具体破解方法...

2018-05-11 10:44:12 1567 5

原创 拉钩网 数据分析与可视化

前端时间爬取了拉钩网的某一职位的相关信息,于是就有了分析一下这些数据的想法,爬取的方式可以看我的另一篇博客,我的数据一被处理成了csv格式的数据,存储在云盘(https://pan.baidu.com/s/1-Iq9fcpJctvL4oe4JZ2HWg)有需要的可自行下载,代码也在里面了,csv文件的数据主要是以下的这些在csv中存储的格式为第一列为职位名称,第二,三列为薪水的范围,第四列为工作城...

2018-05-05 09:36:15 1472

原创 python 'PngImageFile' object has no attribute 'shape'

我在生成词云是导入图片的时候冒出来这么个问题,在网上搜了一下,没有看到解决方法(也许是我的搜索姿势不对)部分代码如xia,img = Image.open(path)wc = WordCloud(    background_color='white', width=1000, height=300, mask=img, font_path=font, ...

2018-05-02 22:02:47 28356 3

原创 python WordCloud 简单实例

前端时间爬下了拉勾网关于数据挖掘职位的相关信息(爬取可看我的另一篇博客https://blog.csdn.net/cy776719526/article/details/80094817),于是就打算把ta的职位要求做成词云呈现出来,由于刚刚学习,所以只是一个简单的实例所有我爬下的岗位要求都保存到了一个名为岗位需求的TXT文件中(已保存在网盘中https://pan.baidu.com/s/1ym...

2018-05-02 21:43:55 31371 6

原创 简单python爬虫爬取拉钩网

因为个人需求,爬取了拉钩网数据挖掘相关职位的数据首先先进入到拉钩的首页,搜索数据挖掘,得到相关职位的列表,按F12,查看网络查看html,可以看到职位列表并不在html所以肯定是通过XHR异步加载的,再切换到XHR,可以找到4个,点开查看,可以看到在一个请求中有我们需要的信息:再切换到一个具体的职位中查看,可以看到,有一串编号,跳回到刚刚的xhr中查看,可以看到有一个positionID与之对应,...

2018-04-26 16:08:47 1584 1

原创 python爬虫 编码错误 file open修改编码方式

在使用requests.get(url).text获取到文本后,将文本写入通过open(uri,'w+')打开的文件后,修改文件名后缀为html,打开后所有字符乱码,查阅资料后是因为编码问题,win中的txt默认为ANSI(选择另存为可查看),而从通过爬取网页读取的文本编码方式为utf-8,所以在打开文件的时候需要设置open打开文件的编码方式,具体命令为file=open(uri,'r+',en...

2018-04-25 11:14:16 934

原创 mysql win7 net strat mysql 无效服务名

我的电脑系统是win7的,安装了mysql5.7.21后,进入cmd,使用命令net start mysql时出现无效服务名问题;解决方法为进入mysql的安装目录(我的是C:\Program Files\MySQL\MySQL Server 5.7   // 默认的) 在bin目录中启动cmd(在bin目录上按住shift右键,会有在此处打开cmd),而后输入mysqld --install 出...

2018-04-10 21:05:49 259

原创 蓝桥杯 算法 奇怪的比赛

奇怪的比赛 某电视台举办了低碳生活大奖赛。题目的计分规则相当奇怪: 每位选手需要回答10个问题(其编号为1到10),越后面越有难度。答对的,当前分数翻倍;答错了则扣掉与题号相同的分数(选手必须回答问题,不回答按错误处理)。 每位选手都有一个起步的分数为10分。 某获胜选手最终得分刚好是100分,如果不让你看比赛过程,你能推断出他(她)哪个题目答对了,哪个题目答错了吗...

2018-03-28 17:01:42 1150 1

原创 蓝桥杯 算法 错误票据

某涉密单位下发了某种票据,并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的,但ID的开始数码是随机选定的。因为工作人员疏忽,在录入ID号的时候发生了一处错误,造成了某个ID断号,另外一个ID重号。你的任务是通过编程,找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。要求程序首先输入一个整数N(N&lt;100)表示后面数据行数。 接着读入N行数据...

2018-03-28 15:39:23 211 1

原创 蓝桥杯 算法 啤酒和饮料

啤酒每罐2.3元,饮料每罐1.9元。小明买了若干啤酒和饮料,一共花了82.3元。 我们还知道他买的啤酒比饮料的数量少,请你计算他买了几罐啤酒。开始在一个博主的博客里看到的这题:https://blog.csdn.net/weixin_38391092/article/details/79689795博主的办法是用两个for循环,我想到的是用一个for循环,思路是用for循环不断增加啤酒的数量,并通...

2018-03-28 10:13:02 723 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除