自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 问答 (1)
  • 收藏
  • 关注

原创 NumPy基础:数组的运算

NumPy⽤户称其为⽮量化(vectorization)。⼤⼩相等的数组之间的任何算术运算都会将运算应⽤到元素级:In [51]: arr = np.array([[1., 2., 3.], [4., 5., 6.]])In [52]: arrOut[52]:array([[ 1., 2., 3.],[ 4., 5., 6.]])In [53]: arr * arrOut[53]:array([[ 1., 4., 9.],[ 16., 25., 36.]])数组与标量的算术运算会将标量

2021-02-17 20:01:11 731

原创 NumPy基础:创建ndarray和数据类型

NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。⼤多数提供科学计算的包都是⽤NumPy的数组作为构建基础。NumPy的ndarray:⼀种多维数组对象In [12]: import numpy as npIn [13]: data = np.random.randn(2, 3)In [14]: dataOut[14]:array([[-0.2047, 0.4789, -0.5194],[-0.5557, 1.9658, 1.3934]])然后进⾏数

2021-02-17 19:42:06 348

原创 python笔记--错误和异常处理

错误和异常处理优雅地处理Python的错误和异常是构建健壮程序的重要部分。在数据分析中,许多函数函数只⽤于部分输⼊。例如,Python的float函数可以将字符串转换成浮点数,但输⼊有误时,有 ValueError 错误:In [197]: float('1.2345')Out[197]: 1.2345In [198]: float('something')-----------------------------------------------------------------------

2021-02-16 11:59:58 292

原创 python笔记--列表、集合和字典推导式

列表、集合和字典推导式列表推导式是Python最受喜爱的特性之⼀。它允许⽤户⽅便的从⼀个集合过滤元素,形成列表,在传递参数的过程中还可以修改元素。形式如下:[expr for val in collection if condition]它等同于下⾯的for循环:result = []for val in collection:if condition:result.append(expr)例如,给定⼀个字符串列表,我们可以过滤出⻓度在2及以下的字符串,并将其转换成⼤写:In [15

2021-02-16 11:51:33 229 1

原创 python笔记--集合

集合集合是⽆序的不可重复的元素的集合。你可以把它当做字典,但是只有键没有值。可以⽤两种⽅式创建集合:通过set函数或使⽤尖括号set语句:In [133]: set([2, 2, 2, 1, 3, 3])Out[133]: {1, 2, 3}In [134]: {2, 2, 2, 1, 3, 3}Out[134]: {1, 2, 3}集合⽀持合并、交集、差分和对称差等数学集合运算。In [135]: a = {1, 2, 3, 4, 5}In [136]: b = {3, 4, 5, 6,

2021-02-16 11:45:48 102

原创 python笔记--字典

字典字典可能是Python最为重要的数据结构。它更为常⻅的名字是哈希映射或关联数组。它是键值对的⼤⼩可变集合,键和值都是Python对象。创建字典的⽅法之⼀是使⽤尖括号,⽤冒号分隔键和值:In [101]: empty_dict = {}In [102]: d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}In [103]: d1Out[103]: {'a': 'some value', 'b': [1, 2, 3, 4]}你可以⽤检查列表和元组是否包含

2021-02-16 11:41:43 70

原创 python笔记--列表(切片,排序,enumerate,sorted,zip,reversed)

列表与元组对⽐,列表的⻓度可变、内容可以被修改。你可以⽤⽅括号定义,或⽤ list 函数:In [36]: a_list = [2, 3, 7, None]In [37]: tup = ('foo', 'bar', 'baz')In [38]: b_list = list(tup)In [39]: b_listOut[39]: ['foo', 'bar', 'baz']In [40]: b_list[1] = 'peekaboo'In [41]: b_listOut[41]: ['foo'

2021-02-16 11:36:23 310

原创 python笔记--元组

元组元组是⼀个固定⻓度,不可改变的Python序列对象。创建元组的最简单⽅式,是⽤逗号分隔⼀列值:In [1]: tup = 4, 5, 6In [2]: tupOut[2]: (4, 5, 6)⽤ tuple 可以将任意序列或迭代器转换成元组:In [5]: tuple([4, 0, 2])Out[5]: (4, 0, 2)In [6]: tup = tuple('string')In [7]: tupOut[7]: ('s', 't', 'r', 'i', 'n', 'g')可

2021-02-16 11:16:58 102

原创 模拟登录12306(selenium+超级鹰)

最近迷上了用selenium去登陆各大网站,别说selenium真挺好用,可以轻松搞定ajax动态加载的网页,不用很费劲的去抓包查找。咳咳…跑题了,回归正题。这次用selenium去登录12306网站,听说比较困难。我就去试了试,发现它的验证码实在是那啥…就是这样的。听头疼的。我来说说主要的代码编写吧。过程:用我们的开发者工具定位到输入账号和密码的窗口,找到并send_keysdriver.find_element_by_id('username').send_keys('用户名')tim

2021-01-23 21:15:18 897 6

原创 东风快递地址分拣程序

需求:现有一堆快递地址信息,需对其进行按省分拣,以方便后续投递# -*- coding: utf-8 -*-"""# @Time : 2021-01-07 11:12# @author : jianwei# @Software : PyCharm"""infos_list = [ ['王*龙', '北京市海淀区苏州街大恒科技大厦南座4层'], ['庞*飞', '北京市昌平区汇德商厦四楼403'], ['顾*锐', '江苏省扬州市三垛镇工业集中

2021-01-21 11:04:59 14020

原创 python编写扎金花小程序

游戏规则:一付扑克牌,去掉大小王,每个玩家发3张牌,最后比大小,看谁赢。有以下几种牌:豹子:三张一样的牌,如3张6.顺金:又称同花顺,即3张同样花色的顺子, 如红桃 5、6、7顺子:又称拖拉机,花色不同,但是顺子,如红桃5、方片6、黑桃7,组成的顺子对子:2张牌一样单张:单张最大的是A这几种牌的大小顺序为, 豹子>顺金>顺子>对子>单张程序需要实现的点:先生成一付完整的扑克牌给5个玩家随机发牌统一开牌,比大小,输出赢家是谁主要思路:把各种

2021-01-21 11:02:34 7198 10

原创 模拟登录古诗词网

主要思路:对登录界面发送请求,网址:https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx由于该网址密码输错三次会有验证码,我们就需要第三方平台帮忙破解验证码。小编采用的斐斐打码平台,当然平台打码是需要收费的,但是比较便宜,还有首充优惠。验证码的类型可以查看,不同类型的验证码收费不一样爬取验证码图片保存,运用打码平台获取验证码。我们再登录时打开我们的抓包工具,会发现一个网址:https:

2021-01-21 10:44:47 1969 6

原创 正则表达式翻页爬取糗事百科

本文主要通过requests模块请求网页,应用正则表达式来解析数据保存糗事百科的图片,同时还能完成分页功能。一.requests模块的具体使用可以参照这篇文章二.正则表达式我之前也发过,链接如下:正则表达式接下来进入写代码环节:开始,我们导入模块import reimport requestsimport os创建文件夹,便于保存二进制图片if not os.path.exists('./糗事百科'): os.mkdir('./糗事百科/')添加请求头(用来伪装你是浏览器向服

2021-01-02 10:46:52 300 1

原创 Hive-常用操作

(1) 把上面两张表拷贝到hdfs某个目录下,如/001/hive,001表示学号,注意修改。hadoop fs -mkdir -p /2019443719/hivehadoop fs -put emp.csv dept.csv /2019443719/hivehadoop fs -ls -R /2019443719(2) 创建员工表(emp+学号,如:emp001)show databases;use financial;set hive.cli.print.current.db=true

2020-12-26 14:12:32 1914

原创 Hdfs命令及Hbase使用(半期)

试题说明:一家新闻网站,正在订制app。该网站的主要业务就是每天发布新闻。新闻包括文字、图片、音视频。该网站负责人委托你来设计文件系统。需求如下:1、 采用分布式文件系统2、 多媒体文件需要按日期、类型保存到HDFS对应的文件夹 后缀名Jpg为图片文件,wav的是音频文件,txt是文本文件。 日期为文件名前十位。hadoop fs -mkdir /2020-02-01hadoop fs -mkdir /2020-02-02hadoop fs -mkdir /2020-02-01/txt.txt

2020-12-26 10:29:01 1007

原创 通过HBase Shell访问HBase

启动HBase Shell,运行这个命令:hbase shell1.一般操作(1)查询服务器状态:status(2)查看所有表:list2、增删改注意:为了避免冲突,下面的表名规则为:member + 学号,比如学号001,表名为member001,列族为address和info列族(1) 创建一个表create ‘member2019443719’,‘info’,‘address’(2) 获得表的描述describe ‘member2019443719’(3) 添加一个id列族

2020-12-25 22:59:52 2678 1

原创 hdfs 的 shell 命令

先在 Linux 本地创建三个文本文件: txt1.txt、 txt2.txt、 txt3.txt。 文件文件里面随意输入些内容gedit txt1.txtgedit txt2.txtgedit txt3.txt(1) 创建目录(-p 表示父目录都会创建), 创建/home/学号 目录。先启动服务: start-dfs.sh start-yarn.shhadoop fs -mkdir -p /home/2019443719(2) 列出 HDFS 文件下名为/home/学号的文件夹中的文件(

2020-12-25 15:48:33 204

原创 python标识符和关键字

标识符和关键字都是之中具有某种意义的标记和称谓,就像人的外号一样。所谓的标识符就是代码的分号、单引号、双引号等等就是标识符,而代码中的if、for等等就是关键字。python语言的标识符使用规则和C语言类似,具体说明如下:第一个字符必须是字母或者下划线(_)。剩下的字符可以是字母、数字、下划线。区分大小写。比如foo跟Foo是不同的。标识符不能以数字开头,出了下划线外,其他的符号都不允许使用。在python3中,非ASCII标识符也是合法的。关键字是python系统保留使用的标识符,也就是

2020-09-08 19:10:42 479

原创 python编码

编码是把信息从一种形式或格式转换为另一种形式或格式的过程,也称为计算机编程语言的代码,简称为编码。在编码时用预先规定的方法将文字、数字或其他对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在计算机、电视、遥控和、通信等方面广泛使用。另外,解码是编码的逆过程。1. 字符编码计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字。因为最早的计算机在设计时采用8个比特(bit) 作为一个字节(byte),所以一个字节能表示的最大的整数就是255(进1111111十进制255)。如果要表示更大

2020-09-06 21:28:38 1853

原创 Python注释

注释可以帮助阅读程序,通常用于概括算法、确认变量的用途或者阐明难以理解的代码段。注释并不会增加可执行程序的大小,编译器会忽略所有注释。在python中程序中有两种类型的注释,分别是单行注释和多行注释:单行注释。单行注释是指只在一行中显示注释内容,python中单行注释以#开头,具体语法格式如下:# 下面代码的功能是输出:Hello,world!print("Hello,world!")多行注释。多行注释也成成对注释,是从C语言集成过来的,这类注释的标记是成对出现的。在python程序

2020-09-06 19:19:42 810

原创 python缩进规则

Python语言要求编写的代码最好全部使用缩进来分层(块)。代码缩进一般用在函数定义、类的定义以及一 些控制语句中。一 般来说,行尾的“:”表示下一行代码缩进的开始。以下的一段复杂的代码中就在分支语句中使用缩进,即使没有使用括号、分号、大括号等进行语句(块)的分隔,通过缩进分层的结构也非常清晰。Python语言规定,缩进只使用空白实现,必须使用4个空格来表示每级缩进。使用制表符和其他数目的空格虽然都可以编译通过,但不符合编码规范。支持制表和其他数目的空格仅仅是为了兼容很旧的Python程序和某些有问题的编

2020-09-06 18:59:38 7226

原创 python爬取图片(根据用户需求输入想爬取的内容及页数)

本次小编向大家介绍的是根据用户的需求输入想爬取的内容及页数。主要步骤:1.提示用户输入爬取的内容及页码。2.根据用户输入,获取网址列表。3.模拟浏览器向服务器发送请求,获取响应。4.利用xpath方法找到图片的标签。5.保存数据。代码用面向过程的形式编写的。关键字:requests库,xpath,面向过程现在就来讲解代码书写的过程:1.导入模块import parsel # 该模块主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配import reques

2020-08-02 16:40:40 4449 6

原创 python面向对象爬取肖战图片

今天小编想大家介绍的是用python在堆糖上爬取肖战的图片。主要步骤:1.获取网址2.运用requests包模拟网站,向服务器发送请求,获取响应3.清洗数据,通过正则表达式筛选自己需要的数据4.保存数据关键字:requests,正则表达式,面向对象本文通过面向对象的方法介绍爬虫,下一期小编在介绍面向过程如何爬取。现在就正式给大家讲解爬虫步骤。import re # 正则表达式import requests # 爬虫用的包from urllib.request import ur

2020-08-01 16:42:20 1448 2

原创 python之正则表达式(字符)

什么是正则表达式正则表达式(regular expression)是包含文本和特殊字符的字符串,该字符串描述一个可以识别各种字符串的模式为什么要使用正则表达式1.信息隐藏2.信息过滤3.信息采集器4.信息查询那么下面我就来介绍下正则表达式的字符匹配:.匹配所有字符print(re.findall('.', "I love China,2000-07-01"))# ['I', ' ', 'l', 'o', 'v', 'e', ' ', 'C', 'h', 'i', 'n'

2020-07-01 18:20:05 1819 2

原创 用random函数编写趣味猜数字游戏

学习编程语言并非是一件枯燥的事,你也可以在玩耍中学习,比如我下面我展示的猜数字游戏,其中包含了函数,循环等知识点,在玩耍中学习,何尝不是一种乐趣呢?那么在玩游戏之前,我们还是先来学习一下random函数的功能吧!以下是random()的方法:import random print( random.randint(1,10) ) # 产生 1 到 10 的一个整数型随机数 print( random.random() ) # 产生 0 到

2020-06-15 14:52:40 5657 3

原创 用Python编写学生成绩管理系统

大家好,我是一名刚进入大学的python新秀,初次来到博客,希望通过博客想大家分享一下自己的学习成果,并记录自己的在大数据方向的经历,希望在这里可以向各位大佬学到更多的知识,以下是我用python写的学生成绩管理系统的一个小程序,希望大家喜欢,欢迎大家提出意见,谢谢!所用知识1.python模块的引用2.自定义函数3.循环及循环嵌套4.列表的增删改代码展示打印表头:输入对应的数字会有对应的操作-1.录入学生姓名及成绩-2.展示全部学生的姓名及成绩-3.查找学生的成绩-4.删除学生姓名及

2020-06-15 02:09:00 26775 19

空空如也

anaconda与pyspark

2021-03-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除