2018年06月_Called_Kingsley

原创 CentOS 6.8 永久修改DNS地址的方法

1、配置ip地址文件 /etc/sysconfig/network-scripts/ifcfg-eth0添加一行DNS1=114.114.114.114 #手动添加一个dns地址；DNS配置文件/etc/resolv.conf 的地址会自动匹配手动添加的地址；重启网卡后不会清除；2、手动添加dns地址 DNS配置文件 /etc/resolv.confnameserver ...

2018-06-29 09:50:50 10682

原创解决 CentOS和Ubuntu下 virt-manager方格乱码的问题

只是因为没有相应的字体而已,下载就好了。CentOS 下：yum installdejavu-lgc-sans-fonts。Ubuntu下：apt install font-managerapt install fonts-arphic-ukai apt install ttf-wqy-zenhei xfonts-wqy ttf-wqy-microhei apt...

2018-06-29 09:30:32 1167

原创 python3 HTTP Error 403:Forbidden（网站对爬虫做了限制）

一般当你的爬虫程序爬起来以后，出现这种情况就是因为你要爬取的网站对爬虫进行了限制。真小气！！！直接用火狐浏览器去查看他的User-Agent就可以了然后：def getHtml(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Fi...

2018-06-17 08:56:18 29482 6

原创 Python3解决UnicodeDecodeError:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

有两种办法：这个时候可以选择修改字符集参数，一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。出现异常报错是由于设置了decode()方法的第二个参数errors为严格（strict）形式造成的，因为默认就是这个参数，将其更改为ignore等即可。例如:html.decode('utf8','ignore')...

2018-06-17 08:51:21 19348 7

原创 Hadoop启动错误--没有datanode or namenode

最近在自学hadoop,处于前期配置阶段，遇到好一些问题，这个问题比较经典，记录一下。这有可能是因为我每次关闭服务器的时候，没有执行stop-all.sh 命令停止Hadoop。解决方法如下：（1）首先，运行stop-all.sh（2）检查masters文件和slaves文件配置有无出错。（3）格式化namenode，在这之前，需要先删除原目录，即core-site.xml文件下...

2018-06-13 19:26:47 1780

原创 python抓取新浪新闻的分页连结

第一步：先找到新闻资讯存在的那个非同步存取的链接，该链接一般位在js那个分类下。然后把这个链接给requests 让它存取内部的资料。取到之后你会发现，这个内容前后两边有保护层，即一个“(”和 “);”,这个时候可以用lstrip和rstrip去截掉这些多余的字符串。最后返回的就是一个json资料，通过json.loads将它赋给一个字典。早在之前就已经发现，这个字典是分层...

2018-06-12 10:34:10 730

原创 python爬虫爬取新浪新闻的评论数以及部分评论

首先应该去找到评论数所对应的网页元素：可以大致猜测，这里是用JavaScript·去计算评论数量的。刷新页面，去观测页面的js部分，有没有对应的链接，仔细查看：找到之后，点击Preview，看到内部结构：可以看出count部分，total代表了参与人数，show字段代表了评论数就可以判断这就是需要的链接。也可以看出这是一种json数据。点击header，复制链接UR...

2018-06-10 20:11:06 8250 1

原创 python爬虫之抓取网页新闻标题与链接

用chrome的原生工具--检查，找查网页标题与链接对应的元素可看到，大标题‘中兴与美商务部达成和解协议：支付10亿美元罚款’对应的网页元素是:<h1 class="main-title">中兴与美商务部达成和解协议：支付10亿美元罚款</h1>所以选中 main-title贴入代码：获取新闻来源和时间:用soup将时间和...

2018-06-09 10:52:47 12514 1

原创 python__网络爬虫(1)

python爬虫__找特定的元素做抽取操作步骤：页面右键——检查——network——左上角按钮——按下需要抽取的特定元素就可以找到需要抽取的元素所在的位置...

2018-06-06 22:04:32 182

原创 Python之jupyter notebook

cmd输入如下命令就能找到配置文件目录[python]view plaincopyjupyternotebook--generate-config让jupyter生成一个配置文件，生成后你会看到文件地址的2.然后就可以使用记事本之类的，打开这个jupyter_notebook_config.py文件然后查找，browser，找到如下代码：## Specif...

2018-06-06 20:28:34 123

Kingsley's Blog