自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 基于快速问医生数据集的随机森林降维与调参

数据爬取与基础模型搭建请戳快速问医生数据集分析降维——统计特征重要性累计95%的特征个数sorted_importance = [item[1] for item in feature_importances ]sorted_features = [item[0] for item in feature_importances ]cul_importance = np.cumsum(so...

2020-03-23 13:20:49 561

原创 快速问医生(ask120.com)——在线数据爬取与接受度预测

数据爬取#导入所需包import requestsfrom bs4 import BeautifulSoupfrom lxml import etreeimport timeimport csvfp = open('内分泌.csv','a',newline='',encoding='utf_8_sig')writer = csv.writer(fp)headers={ '...

2020-03-16 22:22:42 1800 2

原创 python数据分析库pandas使用之五

Day 5常用操作

2020-02-23 21:55:51 343

原创 selenium练习--爱彼迎房东主页评论爬取

Airbnb 房东主页评论爬取示例网页经常会出现一个报错:Selenium弹出新页面无法定位元素问题(Unable to locate element)可以用如下方法:wait = ui.WebDriverWait(browser,10)wait.until(lambda browser: browser.find_element_by_方法(''))WebDriverWait(b...

2020-02-19 22:11:58 867

原创 pytorch进阶教程

进阶部分Broadcasting:Expand/without copying data 广播机制例如:unsqueeze 与 expand,详情见基础部分讲解。import torcha = torch.randn(4,32,14,14)# 在a上叠加b,改变b的维度使其符合a的标准b = torch.randn(32,1,1)#维度从右到左与a对齐#(4,32,14,14)# ...

2020-02-18 22:33:00 199

原创 一个简单的selenium爬虫--爱彼迎

from selenium import webdriverimport timeimport csv#我用的是火狐浏览器,所以需要用到geckdriver驱动#mac系统可放到usr/local/bin中,win系统放到path中即可browser = webdriver.Firefox()#创建csv文件,准备写入fp = open('test1.csv','w',encodin...

2020-02-18 18:41:50 450

原创 pytorch基础教程

如何标注string呢One-hot 独热编码[0.1.0.0…][1 0]:猫 [0 1]:狗但是单词之间的相关性并没有在one-hot中显现。Embedding 用编码的方法表达语言word2vecgloveData type常用的有torch.FloatTensor, torch.DoubleTensor, torch.IntTensor, torch.ByteTensor...

2020-02-17 13:57:20 210

原创 pytorch简单实现线性回归

PyTorch简介Pytorch:由Facebook推出,在2019年5月份,Pytorch将Caffe2作为其后端,加强了其工业落地的实力PyTorch能做什么GPU加速import torchimport timea = torch.randn(10000,1000) #10000行,1000列b = torch.randn(1000,2000)t0 = time.time(...

2020-02-12 11:35:31 223

原创 自然语言处理学习之四

Day 4 本节所需数据 密码:7ln0影评情感分类任务数据清洗导入所需的包import osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupfrom sklearn.feature_extraction.text import CountVectorizer from ...

2020-02-10 21:44:05 403 2

原创 自然语言处理学习之三

Day 3维基百科中文数据 提取码: ttzr 使用Gensim库构造词向量from gensim.models import word2vecimport logging #对需要打印的日志的格式进行定义logging.basicConfig(format='%(asctime)s:%(message)s',level=logging.INFO)raw_sentences = ['...

2020-02-09 14:30:42 459

原创 python数据分析库pandas使用之四

Day 4Pandas基本操作时间操作数据集 密码:z333时间操作基本操作#使用datetimeimport datetimedt = datetime.datetime(year=2020,month = 2,day=8,hour=10,minute=42)print(dt)2020-02-08 10:42:00#使用pandas时间戳import pandas a...

2020-02-08 18:53:16 465

原创 python数据分析库pandas使用之三

Day 3Pandas基本操作titanic数据集: 密码:pje4merge操作import pandas as pdleft = pd.DataFrame({'key':['K1','K2','K3','K4'], 'A':['A1','A2','A3','A4'], 'B':['B1','B2','B3...

2020-02-07 23:35:51 168

原创 python数据分析库pandas使用之二

Day 2Pandas基本操作titanic数据集: 密码:pje4groupby操作A 0B 15C 5A 10B 15C 20groupby三步走:1、split:分块。A分到一起,B分到一起,C分到一起。

2020-02-06 23:31:11 127

原创 自然语言处理学习之二

Day 2神经网络模型基本框架第一层:输入层。例如输入几个词:我 今天 下午,并初始化化为向量: v(Context(w)1), v(Context(w)2), v(Context(w)3)。训练样本:(Context(w),w)包括前n-1个词分别的向量,假定每个词向量大小为m。第二层:投影层。大小为**(n-1)*m**的首尾拼接在一起的大向量。 将w1,w2,w3的向量拼接在一起...

2020-02-04 22:52:47 187

原创 python数据分析库pandas使用之一

Day1Pandas基本操作titanic数据集: 密码:pje4数据读取import pandas as pddf = pd.read_csv('data/titanic.csv')#read_excel/read_json等#.head()可以读取前几条数据df.head(6)#.info()返回当前的信息df.info()'''<class 'pandas....

2020-02-02 16:03:40 348

原创 自然语言处理学习之一

Day1基本概念word2vec顾名思义,将词转换为向量,再把所有词的向量拼接在一起,从而让计算机可以读懂文本的含义。应用范围拼写检查、关键词检索文本挖掘(产品价格、日期、地点、公司名等)文本分类机器翻译客服系统复杂对话系统使用深度学习原因:自动特征学习快,深度学习提供一个通用的学习框架,用来表示世界、视觉和语言学信息,交流比较方便既可以无监督学习,也可以监督学习。语...

2020-01-31 19:04:56 297

原创 Numpy习题

numpy练习小结好好学习,珍爱生命,远离糟心新闻打印当前Numpy版本import numpy as npprint(np.__version__)#1.18.0构造一个全零的矩阵,并打印其占用的内存大小yu_array = np.zeros((5,4))print('%d bytes'%(yu_array.size * yu_array.itemsize))#160...

2020-01-31 12:39:22 305

原创 python 库之numpy使用

python 库之numpy使用#概述import numpy as nparray1 = np.array([1,2,3,4,5])array2 = array +1array2# array([2, 3, 4, 5, 6])array1 + array2# array([3, 5, 7, 9, 11])array1 * array2# array([2, 6, 12, 20...

2020-01-16 12:26:10 124

原创 数据结构练习2

Task02 顺序表和链表理论部分理解线性表的定义与操作。实现顺序表。实现单链表、循环链表、双向链表。练习部分1、合并两个有序链表将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例:输入:1->2->4, 1->3->4输出:1->1->2->3->4->4在这里插入代码片...

2020-01-08 20:30:58 136

原创 数据结构练习1

Task01:数组理论部分理解数组的存储与分类。实现动态数组,该数组能够根据需要修改数组的长度。练习部分利用动态数组解决数据存放问题1、编写一段代码,要求输入一个整数N,用动态数组A来存放2~N之间所有5或7的倍数,输出该数组。输入:N = 100 输出:5 7 10 14 15 20 21 25 28 30 35 40 42 45 49 50 55 56 60 63 65 ...

2020-01-06 18:54:56 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除