自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 读取含有中文的数据集时报错

Python在读取中文数据的时候经常会出错 例如,有以下代码,想要打印一下是否读取到了stopkey: stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', encoding='UTF-8').readlines()] print(stopkey) 错误信息如下: UnicodeEncodeError: 'gbk' code...

2020-04-14 23:36:09 393

原创 使用scrapy爬虫时遇到的问题

main函数是如何决定爬取哪个页面? 例如下图,execute函数中有3个参数,第三个元素决定着不同的网页 需要注意的是,第三个元素是.py文件中class的name属性,而不是文件名: Scrapy爬虫返回403错误 原因很有可能是获取robots没有获取到,推荐一种解决办法: https://blog.csdn.net/qq_31239371/article/details/8299939...

2020-04-02 15:11:05 313

原创 如何得到DOM树结构

通过 Fn+F12 进入开发者模式 寻找标签所在路径 再举个例子: 基于电影天堂画的DOM树:

2020-04-02 14:48:20 516

原创 安装ES报错,闪退…

安装elasticsearch-7.4.1出错 双击.bat文件后闪退,无法看到错误内容 解决思路: 启动powershell cd进入bin文件所在的目录。例如,路径为 D:/software/es/bin cd命令为: cd"D:/software/es/bin" 输入以下命令:.\elasticsearch.bat>>self_test.txt bat文件所在的目录...

2020-04-01 15:00:51 743

原创 正则表达式的练习

正则表达式小练习实现目标代码实现运行结果相关学习资源 实现目标 代码作业-正则表达式: 只用一种正则表达式把以下日期提取出来 •”xxx出生于1995年6月1日” • ”xxx出生于1995/6/1” • ”xxx出生于1995-6-1” • ”xxx出生于1995-06-01” • ”xxx出生于1995-06” 代码实现 #!/usr/bin/python # -*- coding: UT...

2020-04-01 14:15:07 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除