- 博客(10)
- 收藏
- 关注
原创 CentOS 6.8 永久修改DNS地址的方法
1、配置ip地址文件 /etc/sysconfig/network-scripts/ifcfg-eth0添加一行DNS1=114.114.114.114 #手动添加一个dns地址;DNS配置文件/etc/resolv.conf 的地址会自动匹配手动添加的地址;重启网卡后不会清除;2、手动添加dns地址 DNS配置文件 /etc/resolv.confnameserver ...
2018-06-29 09:50:50 10682
原创 解决 CentOS和Ubuntu下 virt-manager方格乱码的问题
只是因为没有相应的字体而已,下载就好了。CentOS 下:yum installdejavu-lgc-sans-fonts。Ubuntu下:apt install font-managerapt install fonts-arphic-ukai apt install ttf-wqy-zenhei xfonts-wqy ttf-wqy-microhei apt...
2018-06-29 09:30:32 1167
原创 python3 HTTP Error 403:Forbidden(网站对爬虫做了限制)
一般当你的爬虫程序爬起来以后,出现这种情况就是因为你要爬取的网站对爬虫进行了限制。真小气!!!直接用火狐浏览器去查看他的User-Agent就可以了然后:def getHtml(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Fi...
2018-06-17 08:56:18 29482 6
原创 Python3解决UnicodeDecodeError:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
有两种办法:这个时候可以选择修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。例如:html.decode('utf8','ignore')...
2018-06-17 08:51:21 19348 7
原创 Hadoop启动错误--没有datanode or namenode
最近在自学hadoop,处于前期配置阶段,遇到好一些问题,这个问题比较经典,记录一下。这有可能是因为我每次关闭服务器的时候,没有执行stop-all.sh 命令停止Hadoop。解决方法如下:(1)首先,运行stop-all.sh(2)检查masters文件和slaves文件 配置有无出错。(3)格式化namenode,在这之前,需要先删除原目录,即core-site.xml文件下...
2018-06-13 19:26:47 1780
原创 python抓取新浪新闻的分页连结
第一步:先找到新闻资讯存在的那个非同步存取的链接,该链接一般位在js那个分类下。然后把这个链接给requests 让它存取内部的资料。取到之后你会发现,这个内容前后两边有保护层,即一个“(”和 “);”,这个时候可以用lstrip和rstrip去截掉这些多余的字符串。最后返回的就是一个json资料,通过json.loads将它赋给一个字典。早在之前就已经发现,这个字典是分层...
2018-06-12 10:34:10 730
原创 python爬虫爬取新浪新闻的评论数以及部分评论
首先应该去找到评论数所对应的网页元素:可以大致猜测,这里是用JavaScript·去计算评论数量的。刷新页面,去观测页面的js部分,有没有对应的链接,仔细查看:找到之后,点击Preview,看到内部结构:可以看出count部分,total代表了参与人数,show字段代表了评论数就可以判断这就是需要的链接。也可以看出这是一种json数据。点击header,复制链接UR...
2018-06-10 20:11:06 8250 1
原创 python爬虫之抓取网页新闻标题与链接
用chrome的原生工具--检查,找查网页标题与链接对应的元素可看到,大标题‘中兴与美商务部达成和解协议:支付10亿美元罚款’对应的网页元素是:<h1 class="main-title">中兴与美商务部达成和解协议:支付10亿美元罚款</h1>所以选中 main-title贴入代码:获取新闻来源和时间:用soup将时间和...
2018-06-09 10:52:47 12514 1
原创 python__网络爬虫(1)
python爬虫__找特定的元素做抽取操作步骤:页面右键——检查——network——左上角按钮——按下需要抽取的特定元素就可以找到需要抽取的元素所在的位置...
2018-06-06 22:04:32 182
原创 Python之jupyter notebook
cmd输入如下命令就能找到配置文件目录[python]view plaincopyjupyternotebook--generate-config让jupyter生成一个配置文件,生成后你会看到文件地址的2.然后就可以使用记事本之类的,打开这个jupyter_notebook_config.py文件然后查找,browser,找到如下代码:## Specif...
2018-06-06 20:28:34 123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人