自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 python(数据分析与可视化)六

python(数据分析与可视化)六爬虫与数据库连接1.估算评论情感分数把评论数据从数据库拿出,走停止词过滤,统计出现的积极词汇和消极词汇的个数。假定 用户满意分数:(积极词汇个数1 - 消极词汇个数5)/评论条数comment_words = ['品质', '、', '做工', '都', '非常', '好', ',', '发货', '贼', '快', ',', '快递', '也', '给', '力', ',', '棒棒', '哒', '~', '?', '?', '?', '不得不', '赞',

2021-01-21 20:05:39 313 1

原创 python(数据分析与可视化)五

python(数据分析与可视化)五爬虫与数据库连接1.sqlite数据库#持久化:把内存中爬取的数据持久的存储到硬盘上面,供以后使用#方案一:csv,excel 方案二:数据库#数据库:关系型 sqlite microsoftAccess Mysql/SQLServer/PostgreSQL(django odoo)/ORACLE#非关系型: nosql not only sql, mongodb/redis#sqlite非常轻量级,字段类型少,不需要安装,默认没有用户名密码,在手机app

2021-01-19 20:41:08 162

原创 python(数据分析与可视化)四

python(数据分析与可视化)四动态网站的爬取今天我们来讲解一下有关js动态加载后的数据爬取1.京东评论初步尝试import requestsfrom lxml import etree#单个商品详情页urlurl = 'https://item.jd.com/100009077475.html'headers = { #没有user-agent 返回简短的html代码,js重定向到首页'user-agent': 'Mozilla/5.0 (Windows NT 10.0; W

2021-01-18 20:23:41 202

原创 python(数据分析与可视化)三

python(数据分析与可视化)三爬取网页文本的牛刀小试今天我们来进行一些有趣的爬虫实战1.煎蛋网文本爬虫import requestsfrom lxml import etreeurl = 'http://jandan.net/'#没有请求头直接请求,响应码403headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

2021-01-17 20:10:40 199

原创 python(数据分析与可视化)二

python(数据分析与可视化)二本地文件读写1.pip包管理(1)内置库包/库:别人写好的代码,直接引用,加快开发效率。内置包:python解释器内置常用功能库。– 解释器安装目录/Lib文件夹下, os time urllib等– 文件夹里有__init__.py 就成了一个包。...import urllibfrom urllib import requestresponse = request.urlopen('http://baidu.com')...(2)关于H

2021-01-16 18:38:47 302 2

原创 python(数据分析与可视化)一

python(数据分析与可视化)一本地文件读写1.读纯文本文件重点:(1)相对路径 : 同级./ 父级…/(2)绝对路径file = open('./chinase_utf8.txt',mode='r',encoding='utf-8')content = file.read()print(content)file.close()2.文本编码历史print(‘中’.encode(encoding=‘gbk’)) -> b’\xd6\xd0’gbk编码 :一个汉字两个字

2021-01-16 12:34:47 148

原创 正则表达式中的一些元字符

正则表达式元字符大集合正则表达式是一个特殊的字符序列,利用事先定义好的一些特定字符以及它们的组合组成一个“规则”,检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。正则表达式是字符串处理的有力工具,但是并不是Python独有的,其他语言也有。Python中,re模块提供了正则表达式操作所需要的功能。 大多数字母和字符一般都会和自身匹配。如果在字符串前面加了r,表示对字符串不进行转义。有些字符比较特殊,它们和自身并不匹配,而是表明应和一些特殊的东西匹配,或者会影响重复次数。这些特殊的字符我们称.

2020-10-19 22:01:53 3770

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除