python
代码拖拉鸡
无简述
展开
-
【leetcode刷题】数组部分记录(更新中)
简单1.面试题53 - II. 0~n-1中缺失的数字解题思路1:0到n-1范围内有n个数组,创建一个升序的从0到n的新数组,遍历原数组,如果某一个位置上的数和原数组不同,那么返回新数组中的那个数。当遍历完原数组后都没有出现不同的数值,那么就返回新数组的最后一个。class Solution: def missingNumber(self, nums: List[int]) -> int: list1 = [i for i in range(len(nums)+1)原创 2020-06-03 15:38:52 · 160 阅读 · 1 评论 -
【numpy】一维数组与矩阵元素的提取
昨天在搭建感知机模型的时候,遇到了一维矩阵中数据提取不出来的情况,所以今天复习一下一维矩阵中数据的提取。numpy数组一维数组分为1xN和Nx1两种情况,这两种情况对于数据的提取方法是不同的。1xN1xN的数组中数据的提取需要使用二维来提取,也就是需要使用两个[][],[0]提取出来的是一行的数据。Nx1Nx1的数组数据提取用一个[]就可以matrix矩阵在numpy中,使用np.matrix()可以将numpy数据转换为矩阵,mat()的具体操作方法可以参考这篇博客numpy之pyt原创 2020-05-17 09:26:33 · 4427 阅读 · 0 评论 -
Pytorch实现Seq2Seq
前言Seq2Seq模型用来处理nlp中序列到序列的问题,是一种常见的Encoder-Decoder模型架构,基于RNN同时解决了RNN的一些弊端(输入和输入必须是等长的)。Seq2Seq的模型架构可以参考Seq2Seq详解,也可以读论文原文sequence to sequence learning with neural networks.本文主要介绍如何用Pytorch实现Seq2Seq模型。...原创 2020-04-10 09:27:03 · 3981 阅读 · 7 评论 -
numpy方法总结
Numpy是一个用python实现的科学计算的扩展程序库,包括:1.一个强大的N维数组对象Array2.比较成熟的函数库3.用于整合C/C++和Fortran代码的工具包4.使用的线性代数、傅里叶变换和随机数生成函数。1.创建numpy数组np.arraynp.zerosnp.onesnp.emptynp.onesnp.arangenp.array([[1,2,3],[...原创 2020-04-09 10:15:45 · 158 阅读 · 0 评论 -
numpy之transpose详解
transpose用于numpy中高维度数组的轴变换,非常不好理解,我用自己的理解以三维数组来举例:transpose()括号中传入的参数通常为0,1,2,可以将0看作0轴,1看作1轴,2看作2轴;对于三维数组(a,b,c)来说,可以把它看作是a个b行c列的数组。拿 arr = np.arange(0,16).reshape(2,2,4)这个数组来举例这个数组的维度是(2,2,4),可...原创 2020-04-08 16:48:55 · 6635 阅读 · 2 评论 -
python os.walk()的用法
os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。示例:在D盘新建一个test文件夹,里边的内容如下:原创 2019-11-05 21:41:54 · 158 阅读 · 0 评论 -
实习日记(一)
今天是在联想实习的第一天,原本以为只是去签合同,没想到刚过去就被安排了工作。带我的老师大概给我说了以下我们组现在的工作,其实就是她自己现在的工作。因为是刚去实习,所以还没机会接触模型,只能做一些数据处理的工作。我们现在主要的任务就是对图片进行标注,在一张图片中用方框标注出人的头肩部分。老师给了我一段python程序,已经实现了对图片中人物的标注,我要做的是把程序改成对人物的头肩部分的标注,然后...原创 2019-11-05 20:49:40 · 519 阅读 · 1 评论 -
Pytorch Tensor基本操作
创建Tensor从numpy引入 torch.from_numpy() a = np.array([2,3]) torch.from_numpy(a)使用list导入,不用numpy作为载体 torch.tensor([2,3.3]) #具体的数据作为参数 torch.Tensor(2,3) #size作为参数torch.tensor()与torch....原创 2019-11-04 18:21:03 · 531 阅读 · 0 评论 -
anaconda安装jieba模块
在学自然语言处理,分词的部分需要用到jieba库,但是在import jieba后出现了错误,anaconda中没有安装jieba模块。按照以往的方法,在conda prompt中conda install jieba,结果仍然显示安装失败。于是上网查询解决方法首先在官网下载jieba安装包将解压后的安装包放到anaconda目录的pkgs目录下在prompt下切换到这一目录 cd ...原创 2019-10-23 16:20:20 · 2860 阅读 · 0 评论 -
matplotlib的grid函数
matplotlin.pyplot.grid(b, which, axis, color, linestyle, linewidth, **kwargs)b : 布尔值。就是是否显示网格线的意思。which : 取值为’major’, ‘minor’, ‘both’。 默认为’major’。axis : 取值为‘both’, ‘x’,‘y’。就是x,y轴的网格线。colo...原创 2019-10-22 14:05:15 · 2719 阅读 · 0 评论 -
matplotlib的subplot2grid函数
plt.subplot2grid(shape, loc, rowspan=1, colspan=1, fig=None, **kwargs)原创 2019-10-22 13:54:32 · 529 阅读 · 0 评论 -
使用pyinstaller打包python文件为exe格式
算法课老师要求提交的作业格式是.exe文件,但是python生成的是.py格式的文件。上网查了一下,可以用python的pyinstaller对py文件进行打包,所以按照教程进行尝试,其间遇到很多问题,这篇博客记录一下这些问题。安装pyinstaller--pip install pyinstaller按照网上的提示,在命令行窗口输入上边这句话就可以安装pyinstaller,但是我这么输...原创 2019-10-14 14:48:27 · 220 阅读 · 1 评论 -
爬取我的微博并生成词云图
import requestsfrom urllib.parse import urlencodefrom pyquery import PyQuery as pq#from pymongo import MongoClientimport jiebaimport wordcloudbase_url = 'https://m.weibo.cn/api/container/get...原创 2019-04-19 10:22:35 · 1273 阅读 · 0 评论 -
Python爬虫实现豆瓣图书搜索
import requestsimport timefrom bs4 import BeautifulSoupimport rebook=[]def search(url): try: #url='https://book.douban.com/tag/%E6%97%A5%E6%9C%AC%E6%96%87%E5%AD%A6' r=reques...原创 2019-05-26 17:56:46 · 1601 阅读 · 0 评论 -
Python爬虫实现猫眼电影搜索
import requestsimport timefrom bs4 import BeautifulSoupimport removie=[]def search(url): try: headers={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=headers) ...原创 2019-05-26 13:03:17 · 936 阅读 · 0 评论 -
使用Numpy创建三维矩阵
1.创建语句#创建形式有两种#1 随机数形式np.random.random((x,y,z))#2 0或1形式np.ones((x,y,z))np.zeros((x,y,z))2.(x,y,z)的含义如果把x,y,z想做一个空间直角坐标系,那么x就相当于z轴;(y,z)代表y行z列;所以(x,y,z)就代表x个y行z列的矩阵3.实例 ...原创 2019-04-30 16:13:08 · 29037 阅读 · 0 评论 -
Python字符串操作
要点字符串拼接拆分含有多种分隔符的字符串判读字符串a是否以字符串b开头调整字符串中文本的格式对字符串进行左、右、居中对齐删除字符串中不需要的字符 字符串拼接>>>li=['a','b','c','d']>>>''.join([str(i) for i in li])abcd>>>''.join(str(i) for ...原创 2019-06-25 09:24:49 · 226 阅读 · 1 评论 -
Numpy的基本操作
参考知乎Numpy数组Arrays一个numpy数组是一个由不同数值组成的网格。网格中的数据都是同一种数据类型,可以通过非负整型数的元组来访问。维度的数量被称为数组的阶,数组的大小是一个由整型数构成的元组,可以描述数组不同维度上的大小。我们可以从列表创建数组,然后利用方括号访问其中的元素:import numpy as npa=np.array([1,2,3]) prin...原创 2019-06-23 00:19:39 · 133 阅读 · 0 评论 -
python的jieba库
jieba库1.jieba库安装命令行输入 pip install jieba 2. jieba分词的原理利用一个中文词库,确定汉子之间的关系概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组3.jieba库的使用 jieba库分为精确模式、全模式、搜索引擎模式4.jieba库的常用函数 ...原创 2019-02-09 18:59:52 · 2142 阅读 · 0 评论 -
链表常见算法题总结
链表合并两个有序链表合并两个有序链表class Solution(object): def mergeTwoLists(self, l1, l2): """ :type l1: ListNode :type l2: ListNode :rtype: ListNode """ l3 =...原创 2019-09-29 15:00:38 · 315 阅读 · 2 评论 -
Python修改文件内容(去除指定字符、空格)
修改文件内容文件a.txt如下图,写程序将文件a中的空格去掉:new_list=[]with open('a.txt') as f: contents=f.readlines() for line in contents: if '\n' in line and len(line)==1: line=line.replace('\...原创 2019-08-03 14:46:33 · 3408 阅读 · 0 评论 -
使用k-近邻算法改进约会网站的配对效果以及手写数字识别测试
创建k-近邻算法分类器def classify0(inX,dataSet,labels,k): ## inX:用于分类的输入向量 ## dataSet:输入的训练样本集 ## labels:训练样本标签 ## k:选择的近邻数目 dataSetSize=dataSet.shape[0] ##样本集的数目 diffMat=tile(inX,(dataSetSize,1))-...原创 2019-06-30 09:35:13 · 212 阅读 · 0 评论 -
K-近邻算法代码实现
手写k-近邻算法k-近邻算法的工作原理:存在一个样本数据集合,也成为训练样本集,样本集中的每一个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据的分类标签。选择样本数据集中的前k个最相似的k个数据,将k个最相似数据中出现次数最多的分类作为新数据的类别。k-近邻算法Python实现(手写)## KNN.pyf...原创 2019-06-29 11:08:59 · 219 阅读 · 0 评论 -
sklearn线性回归算法实现
官方文档参考导入库import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets,linear_modelfrom sklearn.metrics import mean_squared_error,r2_score加载数据diabetes=datasets.load_diabetes()...原创 2019-07-04 09:11:38 · 320 阅读 · 0 评论 -
机器学习的线性模型项目实例
1.用于回归的线性模型回归问题的线性模型为: 有许多不同的线性回归模型,这些模型之间的区别就在于如何从训练数据中学习参数和;1.1 线性回归线性回归是最简单也是最经典的线性方法;线性回归通过寻找和使得对训练集的预测值与真实的回归目标值之间的均方误差最小; 线性回归没有参数,因此无法控制模型的复杂度;#一维数据,欠拟合from sklearn.linear_mode...原创 2019-04-23 15:53:15 · 1147 阅读 · 0 评论 -
python正则表达式
正则表达式1.定义通用的字符串表达框架 简洁表达一组字符串的表达式 判断某字符串的特征归属2.正则表达式的使用 编译-------将符合正则表达式语法的字符串转换成正则表达式特征3.正则表达式的语法 正则表达式由字符和操作符组成 4. Re库的使用 re.search...原创 2019-02-12 21:06:30 · 162 阅读 · 0 评论 -
python的wordcloud库
wordcloud库1.定义wordcloud是优秀的词云展示的第三方库 2.基本使用 3.英文效果 import wordcloudc=wordcloud.WordCloud()c.generate("worldcloud by Python")c.to_file("pywordcloud.png") ...原创 2019-02-11 22:22:39 · 316 阅读 · 0 评论 -
python文件
文件1.文本文件由单一特定编码组成的文件,如UTF-8编码 被看成是存储着的长字符串 适用于.txt文件、.py文件等2.二进制文件直接由比特0和1组成,没有统一字符编码 一般存在二进制0和1的组织结构,即文件格式 适用于.png文件、.avi文件等 3.文件的使用文本文件vs二进制文件 4.文件的打开文件处理...原创 2019-02-11 16:44:21 · 222 阅读 · 0 评论 -
python的time库
time库1.定义time库是python中处理时间的标准库2. time库的使用时间获取-------time() ctime() gmtime() 时间格式化-------strftime() strptime() 程序计时-------sleep() perf_counter()3.时间获取函数time()-------获取当前时间戳,浮点数形式 ...原创 2019-02-11 11:05:08 · 17809 阅读 · 0 评论 -
python字符串应用
python字符串1.定义字符串是由一对单引号或一对双引号表示 字符串是字符的有序序列,可以对其中的字符进行索引 字符串从0开始索引2. 表示方法单引号表示------‘abc’ 双引号表示------"中国" 字符串中含单引号或双引号-------'这里有个双引号(")' 或者 "这里有个单引号(')" 字符串中既有单引号又有双引号------''' 这里既有单引...原创 2019-02-10 22:39:06 · 322 阅读 · 0 评论 -
三国演义任务出现词频统计
使用jieba库将文本中的词汇进行提取,需要注意的是文本要存储为utf-8格式,否则会报错。代码import jiebatxt = open("threekingdoms.txt","r", encoding="utf-8").read()words = jieba.lcut(txt)counts = {}for word in words: if len(word...原创 2019-02-09 20:55:30 · 1291 阅读 · 0 评论 -
Hamlet词频统计实例
统计Hamlet中词频最高的十个词语,文章在https://python123.io/resources/pye/hamlet.txt思路获取Hamlet文章,对文章进行处理,将所有大写字母转换成小写,将所有特殊符号转换成空格 将所有单词以及出现的次数加到字典,转换成列表并进行排序 将排序后前十个输出,即为词频最高的词汇 将文章保存为TXT格式,并保存在代码所存的文件夹中代码...原创 2019-02-09 20:03:53 · 3710 阅读 · 0 评论 -
用python分析微信朋友圈
1.朋友圈好友数据提取与存储这个功能可分为三步实现:模块一: 登录模块import itchatdef get_data(): itchat.auto_login() friends=itchat.get_friends(update=True) return friends模块二:数据提取模块 将好友的姓名、备注、性别、省...原创 2019-02-13 19:06:29 · 809 阅读 · 1 评论 -
爬取淘宝美食信息并进行可视化展示
首先爬取淘宝美食信息采用的爬取方法是selenium库和pyquery库,并将爬取到的美食信息存放到csv文件,具体代码如下:import refrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import Web...原创 2019-04-27 18:59:15 · 902 阅读 · 0 评论 -
Python爬虫爬取淘宝商品信息
selenium库可以驱动浏览器自动进行页面的访问(代码参考《Python3网络爬虫开发实战》崔庆才著)1.驱动浏览器访问淘宝页面browser=webdriver.Chrome()wait=WebDriverWait(browser,10)def search(): try: url="https://www.taobao.com" brow...原创 2019-04-15 09:53:58 · 8345 阅读 · 3 评论 -
爬取丁香园医生评论(登录版)
丁香园医生网站只有登录后才可以看到完整的评论,所以需要进行模拟登录;有两种方法,一种是用selenium库模拟登录,但是丁香园医生的登录比较复杂,设计滑块的移动,所以这个方法不合适;另一种方法是自己登录后,获取登陆后的cookie信息,就可以实现登陆后的信息爬取;代码实现:import requestsfrom bs4 import BeautifulSoupurl="h...原创 2019-04-13 22:10:55 · 1016 阅读 · 1 评论 -
BeautifulSoup库解析知乎页面的不同方法
提取知乎发现页面的内容打开知乎的发现页面审查元素观察发现,标题隐藏在h2标签的a标签下,一次采用不同的方法对标题内容进行提取1.按照标签名进行提取,前提是这个标签中只有一个属性for a in soup.find_all('h2'): print(a.string)2.按照属性进行提取for a in soup.find_all(attrs=...原创 2019-04-03 20:31:57 · 342 阅读 · 0 评论 -
爬取豆瓣电影TOP250
爬取豆瓣电影TOP250我们要爬取的网址:https://movie.douban.com/top250我们要爬取的内容是250部电影的基本信息:排名、电影名、导演、年份、评分;爬取后将这些电影的信息保存在一个csv文件中。将页面滑到底部,可以看到一共10页,所以我们需要爬取一个页面,然后重复10次,每次爬取的方法相同,不同的是网址的某个参数。1.使用reques...原创 2019-04-16 11:17:59 · 2549 阅读 · 1 评论 -
Python爬虫的一些官方文档(自用)
BeautifulSoup:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#stringselenium:https://selenium-python-zh.readthedocs.io/en/latest/navigating.htmlpyquery:https://pythonhost...原创 2019-04-15 16:30:58 · 1014 阅读 · 0 评论 -
selenium库学习笔记
基本使用(百度实例)import seleniumfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_...原创 2019-04-10 10:41:52 · 224 阅读 · 1 评论