自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 学术前沿趋势分析 数据分析实战 (三)

参加了天池的学术前沿趋势分析比赛,这个比赛主要对arXiv论文完成对应的数据分析,这里整理下完成task的思路及踩过的坑:下载数据集后的表结构如下:1 分类统计论文数量统计(数据统计任务):统计2019年全年,计算机各个方向论文数量1.1 数据导入先导包import seaborn as sns #用于画图from bs4 import BeautifulSoup import re import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json

2021-05-02 21:10:29 339

原创 Mssql+Tableau电商数据分析实战(二)

最近把sql复习了第二遍,也熟悉了tableau,纸上得来终觉浅,在天池找了一个专题进行实践,并参考了一个实践项目的分析思路,数据来源:UserBehavior整个数据集解压之后有3.5G左右,包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的隐式行为(行为包括点击、购买、加购、喜欢),用于隐式反馈推荐问题的研究。导入mssql之后的基本的表结构如下:列名数据类型说明uidint序列化后的用户IDpidint序列化后的商品IDp

2021-04-24 22:02:27 1272 1

原创 《Python自然语言处理》第五章练习题答案

这章主要内容涉及分词、词性标注和标注器训练、字典使用。因为中英文差别,所以在后面练习里尝试用中文数据来训练ngram标注器。首先导包import nltkfrom nltk.corpus import brownfrom nltk.book import *import jiebaimport matplotlib.pyplot as plt1#nltk词性标注无法消除歧义text = nltk.word_tokenize('British Left Waffles on Falkla

2021-03-23 19:52:33 1370

原创 《Python自然语言处理》第三章练习题答案

第三章这本书网上能找到的答案很少。这一章主要涉及字符串处理、正则表达式、爬虫、列表推导等内容。1s = 'colorful'print(s[:3]+'u'+s[3:])2s[-9]4s[::2]5s[::-1]7import restring = "The purpose of this research was to create a framework of indicators that enabled us to measure the classic dimen

2021-03-19 19:26:59 1608 2

原创 《Python自然语言处理》第二章练习题答案

第二章最近要学nltk,这本书的练习题出的很好,自己写下来锻炼一下。2from nltk.corpus import gutenberglen(gutenberg.words('austen-persuasion.txt'))len(set(gutenberg.words('austen-persuasion.txt')))3from nltk.corpus import brownbrown.words(categories=['news','editorial'])4from n

2021-03-19 19:14:19 806

原创 机器学习实战(一)—— 线性回归

线性回归前言一、线性回归定义θ的计算梯度下降最小二乘法带权重的线性回归二、使用步骤1.引入库2.读入数据总结前言本文是基于《机器学习实战》和吴恩达的ML课程自己的总结,也包括作业代码的重写和注释。提示:以下是本篇文章正文内容,下面案例可供参考一、线性回归定义线性回归假设特征和结果满足线性关系。每个特征对结果的影响都可以通过特征前的参数体现,且每个特征变量可以先映射到一个函数,然后再参与线性计算。从而表达特征与结果之间的非线性关系。如果用x1,x2…xn描述特征,就可以通过以下函数做出估计

2020-12-01 21:42:48 1058

原创 机器学习实战(零)——泰坦尼克数据处理

本系列是针对《机器学习实战》蜥蜴书第二版自己的总结,结合吴恩达的ML课部分理论内容。这里拿泰坦尼克这个经典例子来说明对于机器学习算法的数据清洗技术。观察数据首先从kaggle下载数据得到 train.csv 和 test.csv加载数据train_data = pd.read_csv('drive/Colab Notebooks/ml/datasets/titanic/train.csv')test_data = pd.read_csv('drive/Colab Notebooks/ml/dat

2020-11-25 21:05:41 411

原创 jsp+mysql+css电影评价个性化推荐系统

主页登录用户个人信息管理检索个性化推荐 Statement statement4 = conn.createStatement(); String sql4 = "SELECT action,science,sciencefiction,adventure,comedy,thriller,terror from boswerrecord where id="+ id +...

2019-11-18 22:49:04 1070 8

原创 python电商用户消费数据分析实战(一)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-11-17 23:26:32 2995 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除