Fighter1349-CSDN博客

原创关于补码学习总结（补码来历及推导过程）

最近又重新温习了下C语言，同时对二进制又有了新的认识，以下就是我对二进制、补码等问题的思考，直接复制的笔记。

2019-09-08 11:38:36 794

原创 Spark-yarn-client模式报 "/etc/hadoop/conf.cloudera.yarn/topology.py" error=2, No such file or directoy

这个问题的报错是cloudera之前版本的一个bug解决办法就是把其他datanode中的/etc/hadoop/conf.cloudera.yarn/复制到执行spark-shell的这台机器上。

2019-07-15 20:30:15 915 1

原创本地机器，跨接远程服务器连接远程mongo服务（ssh tunnel）

命令行中使用设置本地9999端口与远程服务器连接的27017端口建立联系（如果没有rsa，则提示输入密码） ssh -fN -l ubuntu -L 9999:{$remote_mongo_ip}（表示mongo的远程ip）:27017 {$remote_server_ip}(可登录mongo的远程ip)启动本地9999端口mongo --host 127.0.0.1 --port 99...

2018-12-25 16:50:31 1237

原创 gitlab问题处理

用pycharm无意修改了git文件夹下的部分文件，但是之前修改的没有注意哪里修改的，又想git push本地代码到fork的项目，笨方法是重新git clone。其中ruyi代码fork的别人的源仓库，origin为fork别人后自己的远程仓库后来上网查操作步骤大概是： git fetch ruyi #表示从远程ruyi拉项目到本地,不尽兴合并操作 git reset --...

2018-11-29 15:11:16 270

由于京东运用ajax加载页面，正常的爬取页面不能获得全部页面内容，之前做过用Scrapy + Selenium实现京东商品列表摘要信息的爬取，今天又研究了一下其下拉后接口url的构造，终于发现了其中的奥秘！先用谷歌浏览器请求网页：https://search.jd.com/Search?keyword=手机&amp;enc=utf-8&amp;qrst=1&amp;rt=1&amp;stop=1...

2018-09-18 19:53:39 6072 1

原创 Mongodb数据库聚合自由查询显示的方法

Mongodb数据库查询显示的方法：今天用了好几个小时的时间翻阅各种资料，最后终于在Mongodb官方文档中找到，Mongodb数据库查询，展示数据时，字符串的截取功能，代码如下：db.boss_python.aggregate([{'$match':{'job_time':{'$regex':'2018-09.*'},'job_address':'城市：深圳'}}, ...

2018-09-17 20:57:27 1098

原创 python + pyecharts + wordcloud数据可视化

之前的文章写到了requests + 多进程对Boss直聘网的职位进行爬取，这次就对之前爬取的数据，进行可视化分析。Boss直聘网爬虫的文章在这里：https://blog.csdn.net/weixin_42350948/article/details/82288076进入正题：本篇文章主要讲python + pyecharts + wordcloud对爬取的数据进行数据分析...

2018-09-16 10:58:44 5497

原创 Mongodb数据库删除重复数据

具体代码如下：db.boss_python.aggregate([ { $group: { _id: {job_id: '$job_id'},count: {$sum: 1},dups: {$addToSet: '$_id'}} }, { $match: {count: {$gt: 1}} } ]).forEach(funct...

2018-09-12 19:51:54 2194 2

原创 Linux系统，下载文件_解压_添加的path

解压缩：tar -xvf xxx文件夹.tar.bz2将程序移动到合适的位置：sudo mv xxx文件夹 /usr/local/src/xxx文件夹创建软链接到环境变量中。这样可以直接在shell中使用xxx命令:sudo ln -sf /usr/local/src/xxx文件夹/bin/xxx /usr/local/bin/xxx其中的参数s表示为软链接，参数f表示...

2018-09-11 11:40:37 233

原创 Scrapy + Selenium 爬取京东商品列表

爬取思路框架：分析网页构成，用xpath解析网页； 2. 由于京东商品列表页为ajax请求，正常的请求只能拿到一半的数据，另一半数据需要下拉滚动条才会显示，因此我们用selenium模拟浏览器下拉操作访问网页，才能得到完整的数据。直接进入正题： 1、先创建一个scrapy项目在系统命令行输入：scrapy startproject jd项目创建成功...

2018-09-10 19:29:19 4155 2

原创 Boss直聘网requests多进程爬虫，写入Mysql

学爬虫好久了，今天用requests库爬了一下，Boss直聘的python职位信息，解析后写入Mysql数据库首先要确定要做的具体框架：获取所爬城市的编号通过获取城市编码及python对应的编码，构造url进行请求，获取具体职位的url爬取具体职位url，解析需要的关键信息，同时写入数据库废话不说开始上代码首先导入所需要的模块：这里用到了’正则表达式’因此要导...

2018-09-01 16:14:20 2772 2

weixin_42350948的博客

原创关于计算机浮点数存储（二进制）方式的总结