自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 CentOS 6.8 永久修改DNS地址的方法

1、配置ip地址文件 /etc/sysconfig/network-scripts/ifcfg-eth0添加一行DNS1=114.114.114.114 #手动添加一个dns地址;DNS配置文件/etc/resolv.conf 的地址会自动匹配手动添加的地址;重启网卡后不会清除;2、手动添加dns地址 DNS配置文件 /etc/resolv.confnameserver ...

2018-06-29 09:50:50 10682

原创 解决 CentOS和Ubuntu下 virt-manager方格乱码的问题

只是因为没有相应的字体而已,下载就好了。CentOS 下:yum installdejavu-lgc-sans-fonts。Ubuntu下:apt install font-managerapt install fonts-arphic-ukai apt install ttf-wqy-zenhei xfonts-wqy ttf-wqy-microhei apt...

2018-06-29 09:30:32 1167

原创 python3 HTTP Error 403:Forbidden(网站对爬虫做了限制)

一般当你的爬虫程序爬起来以后,出现这种情况就是因为你要爬取的网站对爬虫进行了限制。真小气!!!直接用火狐浏览器去查看他的User-Agent就可以了然后:def getHtml(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Fi...

2018-06-17 08:56:18 29482 6

原创 Python3解决UnicodeDecodeError:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

有两种办法:这个时候可以选择修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。例如:html.decode('utf8','ignore')...

2018-06-17 08:51:21 19348 7

原创 Hadoop启动错误--没有datanode or namenode

最近在自学hadoop,处于前期配置阶段,遇到好一些问题,这个问题比较经典,记录一下。这有可能是因为我每次关闭服务器的时候,没有执行stop-all.sh 命令停止Hadoop。解决方法如下:(1)首先,运行stop-all.sh(2)检查masters文件和slaves文件 配置有无出错。(3)格式化namenode,在这之前,需要先删除原目录,即core-site.xml文件下...

2018-06-13 19:26:47 1780

原创 python抓取新浪新闻的分页连结

第一步:先找到新闻资讯存在的那个非同步存取的链接,该链接一般位在js那个分类下。然后把这个链接给requests 让它存取内部的资料。取到之后你会发现,这个内容前后两边有保护层,即一个“(”和 “);”,这个时候可以用lstrip和rstrip去截掉这些多余的字符串。最后返回的就是一个json资料,通过json.loads将它赋给一个字典。早在之前就已经发现,这个字典是分层...

2018-06-12 10:34:10 730

原创 python爬虫爬取新浪新闻的评论数以及部分评论

首先应该去找到评论数所对应的网页元素:可以大致猜测,这里是用JavaScript·去计算评论数量的。刷新页面,去观测页面的js部分,有没有对应的链接,仔细查看:找到之后,点击Preview,看到内部结构:可以看出count部分,total代表了参与人数,show字段代表了评论数就可以判断这就是需要的链接。也可以看出这是一种json数据。点击header,复制链接UR...

2018-06-10 20:11:06 8250 1

原创 python爬虫之抓取网页新闻标题与链接

用chrome的原生工具--检查,找查网页标题与链接对应的元素可看到,大标题‘中兴与美商务部达成和解协议:支付10亿美元罚款’对应的网页元素是:<h1 class="main-title">中兴与美商务部达成和解协议:支付10亿美元罚款</h1>所以选中 main-title贴入代码:获取新闻来源和时间:用soup将时间和...

2018-06-09 10:52:47 12514 1

原创 python__网络爬虫(1)

python爬虫__找特定的元素做抽取操作步骤:页面右键——检查——network——左上角按钮——按下需要抽取的特定元素就可以找到需要抽取的元素所在的位置...

2018-06-06 22:04:32 182

原创 Python之jupyter notebook

cmd输入如下命令就能找到配置文件目录[python]view plaincopyjupyternotebook--generate-config让jupyter生成一个配置文件,生成后你会看到文件地址的2.然后就可以使用记事本之类的,打开这个jupyter_notebook_config.py文件然后查找,browser,找到如下代码:## Specif...

2018-06-06 20:28:34 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除