Part 1.生成指定维度的随即多维数组
1.Numpy 库
import numpy as np #引入numpy
data = np.random.rand(2, 3)#生成两行三列随机数
print(data) #输出数据
print(type(data)) #输出数据类型
2.一维数组
arr1 = np.arange(10)
print(arr1)
3.多维数组
arr2 = np.arange(12).reshape(3,4)
print(arr2) #3行4列
4.转置
arr = np.random.rand(2,3)
print(arr) #2行3列
print(arr.transpose()) #转成3行2列
5.常用的统计方法
arr = np.arange(10).reshape(5,2) #生成5行2列序列
print(arr)
print(np.sum(arr)) #统计总和
print(np.sum(arr, axis=0)) #按列求和
print(np.sum(arr, axis=1)) #按行求和
print(np.any(arr > 0)) #至少有一个值大于0
print(np.all(arr > 0)) #所有值大于0
print(np.unique(arr)) #去重
6.格式转换
#str转换成bytes,用encode
b_str = ch_str.encode('utf-8')
print(b_str)
type(b_str)
# bytes转换成str,用decode
ch_str2 = b_str.decode('utf-8')
print(ch_str2)
type(ch_str2)
7.映射
'{0}, {1}'.format('Python', 2019) #通过位置映射
#输出结果:“python,2019”
'{name}, {year}'.format(year=2019, name='Python') #通过关键字映射
#输出结果:“Python,2019”
Part 2.数据采集与操作
1.常用格式的本地数据读写
1.读取txt文件
File_obj=open(‘路径’,’编码’) #打开文件,编码通常为’r’:读,’w’:写
File_obj.read() #读取整个文件
File_obj.readline() #逐行读取
File_obj.readlines() #返回列表,列表中的每个元素是行内容
#写操作
txt_filename = 'D:./123.txt' #定义文件路径
File_obj = open(txt_filename, 'w', encoding='utf-8') #打开文件
File_obj.write(“内容”) #将内容写入文件
#关闭文件
File_obj.close()
2 读取csv格式文件
#pandas读取csv
mport pandas as pd #引入pandas
filename = 'E:./123.csv' #文件地址
df = pd.read_csv(filename, encoding='utf-16') #读取文件
3.读取json数据
import json #引入json
filename = './123.json'
with open(filename, 'r') as f_obj:
json_data = json.load(f_obj)
2.爬虫简介
1.访问
import urllib.request #引入requests库
test_url =' http://www.google.com ' #网址url
response = urllib.request.urlopen(test_url) #通过url下载
print(response.getcode()) # 200 表示访问成功
print(response.read())
#通过requests访问
request = urllib.request.Request(test_url)
request.add_header("user-agent