楼上little黑-CSDN博客

原创字符串/元组/列表/字典互转

#coding:utf-8#1、字典 dic={'age': 7, 'name': 'Zara', 'class': 'First'} #字典转为字符串 str(dict) ------>"{'age': 7, 'name': 'Zara', 'class': 'First'}"#字典转为元组tuple(dict)---------->('age', 'na...

2019-04-16 19:30:51 235

原创苹果股票数据分析（object数据的转换，行索引的转换）

导入数据分析三剑客import numpy as npimport pandas as pdimport matplotlib.pyplot as pltapple=pd.read_csv("C://Users/Administrator/Desktop/apple.csv")#a=apple.dtypes'''Date objectOpen ...

2019-09-09 21:48:25 698

原创 pandas2·——>DataFrame2·（排序、统计函数、相关性）

排序NaN统一放到排序末尾.sort_index()方法在指定轴上根据索引进行排序，默认升序.sort_index(axis=0, ascending=True).sort_values()方法在指定轴上根据数值进行排序，默认升序Series.sort_values(axis=0, ascending=True)DataFrame.sort_values(by, axis=0, a...

2019-09-08 16:15:18 734

原创 pandas2·——>DataFrame（创建、索引、运算）

DataFrame类型由共用相同索引的一组列组成DataFrame是一个表格型的数据类型，每列值类型可以不同DataFrame既有行索引、也有列索引DataFrame常用于表达二维数据，但可以表达多维数据DataFrame是二维带“标签”数组创建：• 二维ndarray对象• 由一维ndarray、列表、字典、元组或Series构成的字典• Series类型• 其他的D...

2019-09-08 15:08:07 759

原创 pandas1·——>Series（创建、索引、部分展示、去除空数据）

Series是一维带“标签”数组index_0 data_aSeries基本操作类似ndarray和字典，根据索引对齐Series类型的创建由一组数据及与之相关的数据索引组成可使用（1·Python列表 2·标量值 3·Python字典 4·ndarray 5·其他函数）五类方法创建• Python列表，index与列表元素个数一致• 标量值，index表达Series类型的尺寸...

2019-09-08 10:42:59 1776

原创实例6·图像转换，颠倒（图片的构成，jpg、png的不同）

图像是一个三维数组，维度分别是高度、宽度和像素RGB值import numpy as npfrom PIL import Imagea=np.array(Image.open("C:\\Users/Administrator/Desktop/mn.jpg").convert("L"))b=255-aim=Image.fromarray(b.astype("uint8"))im.sa...

2019-08-22 09:31:45 1024

原创 Nunmpy2·（数据的存取、运算、random的随机函数、统计函数、梯度函数）

·存取csv文件（一维，二维）存np.savetxt(frame, array, fmt='%.18e', delimiter=None)• frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件• array : 存入文件的数组• fmt : 写入文件的格式，例如：%d %.2f %.18e• delimiter : 分割字符串，默认是任何空格...

2019-08-22 09:04:10 252

原创 Numpy1·（数组的生成、判断、转换、索引（取出符合条件的数值）、切片）

#导入import numpy as np数组生成1·直接生成使用字典，列表，元组及其嵌套'''p91 数组生成函数'''a=np.array([1,2,3,4],dtype=np.float64) #可以指定类型，也可以不指定，不指定就生成给定的数据b=np.array([[1,2,3,4],[5,6,7,8]])数组判断大小np.size(b)--------...

2019-08-20 20:48:12 1672

原创基础1·约会网站推荐（k最近邻算法的实战）

import numpy as npimport operator"""函数说明:kNN算法,分类器Parameters: inX - 用于分类的数据(测试集) dataSet - 用于训练的数据(训练集) labes - 分类标签 k - kNN算法参数,选择距离最小的k个点Returns: sortedClassCount[0][0] -...

2019-06-04 12:05:54 1682

原创实例5·GitHub-Api数据绘制（链接添加，api调用，颜色填充）

import requestsimport pygalfrom pygal.style import LightColorizedStyle as LCS, LightenStyle as LS# 获取信息url = 'https://api.github.com/search/repositories?q=language:python&sort=stars'r = req...

2019-05-27 20:13:36 175

原创实例4·股票数据分析（pygal，json格式数据处理）

import jsonimport requestsimport pygalimport mathfrom itertools import groupby# 将数据加载到一个列表中filename = 'C://Users/Administrator/Desktop/btc_close_2017.json'with open(filename) as f: texts ...

2019-05-27 12:32:17 967 2

原创实例3·加州死亡谷温度曲线（csv文件处理，图例字体倾斜）

import csvfrom datetime import datetimefrom matplotlib import pyplot as pltwith open('C://Users/Administrator/Desktop/death_valley_2014.csv') as f: text = csv.reader(f) #表头 header_ro...

2019-05-26 20:46:36 775

原创实例2·筛子直方图（pygal下的直方图绘制，svg格式的打开）

# 创建一个筛子类import pygalfrom random import randintclass Shaizi(): def __init__(self, sides_num=6): self.sides_num = sides_num def number(self): return randint(1, 6)# 掷骰子...

2019-05-26 19:50:03 253

原创实例1·随机漫步图（matplotlib下的设置图像尺寸，隐藏坐标轴）

from random import choiceimport matplotlib.pyplot as pltx_start = [0]y_start = [0]#生成坐标矩阵while len(x_start)<10000: x_direction=choice([-1,1]) x_distance=choice([0,1,2,3,4]) x_s...

2019-05-26 19:20:22 1279

原创 matplotlib·2（绘制饼图，直方图，极坐标图，复杂子区域分割）

import numpy as npimport matplotlib.pyplot as plt# 绘制饼图labels = 'x', 'y', 'z', 'm' # 坐标轴名称size = [100, 230, 340, 343]explode = (0, 0.1, 0, 0) # 使得y的数据突出plt.subplot2grid((3, 3), (0, 0), colsp...

2019-05-26 16:02:24 768

原创 matplotlib·1（散点图，曲线图，注释添加，图像保存，区域分割，中文使用）

import matplotlib.pyplot as pltx=list(range(0,100))y=[pow(i,2) for i in x]z=[2.5*i for i in x]m=[4*i for i in x]n=[10*i for i in x]#坐标轴长度设置（放在前面用于全局）plt.axis([0,100,0,800])#分割子区域plt.subpl...

2019-05-26 14:21:54 2317

原创基础17·硕士往年试题下载软件开发（tkinter下的url打开，光标显示）

from tkinter import *import webbrowser as wbdef main(): name = entry1.get() # 文本框设置，在此地方放置有利于刷新 text = Text(master, width = 33, height = 27) text.grid(row = 1, column = 1) tex...

2019-05-24 20:55:19 189

原创算法5·贪婪算法（旅行商问题）

解释:该算法用于需要计算所有的解，并从中找到最短的那一个与狄克斯特拉算法不同的是：这里只输入了狄克斯特拉算法里面的cost# 输入旅行表信息distance = {}distance['ab'] = distance['ba'] = 10distance['ac'] = distance['ca'] = 12distance['ad'] = distance['da'] = 16...

2019-05-11 18:39:33 2095

原创算法4·狄克斯特拉算法（路程最短，只可用于非负权重时使用）

#建立图pic = {}pic["a"], pic["a"]["b"], pic["a"]["c"] = {}, 5, 2pic['b'], pic['b']['d'], pic['b']['e'] = {}, 2, 4pic['c'], pic['c']['b'], pic['c']['d'] = {}, 8, 7pic['d'], pic["d"]['f'] = {}, 1pic...

2019-05-10 12:57:51 256

原创算法3·广度优先搜索（关系最短）

from collections import dequefriends = {}friends["my_friend"] = ["李", "吴", "徐"]friends["李"] = ["潘O", "孟"]def search(name): people = deque() people += friends[name] searched = [] ...

2019-05-10 10:31:14 145

转载 citycode

110000 北京市　110100 　市辖区　　110101 　　东城区　　110102 　　西城区　　110105 　　朝阳区　　110106 　　丰台区　　110107 　　石景山区　　110108 　　海淀区　　110109 　　门头沟区　　110111 　　房山区　　110112 ...

2019-05-07 21:19:18 3385

原创算法2·欧几里得（最大公约数），快速排序

最大公约数：def ojld(x, y): if x % y == 0: print(min(x, y)) else: a = x % y if a == 0: print(min(x, y)) else: b = y % a if b == ...

2019-05-07 19:40:50 148

原创算法1·递归（汉诺塔）

count = 0#（初始柱子，中间柱子，结果柱子）在递归过程中，ABC三柱子的实际作用会发生变化，但函数位置代表的含义不会改变# 递归可以只关注N与N-1的关系def hanoi(n, start, mid, end): global count if n == 1: print("{} | 方法：{}->{}".format("递归层数:1"...

2019-05-06 21:34:36 373

原创进阶4·淘宝商品爬取与分析（selenium，网页元素无法定位的四个解决办法）

淘宝估计是爬虫界一直想要去尝试的网页，小彬自学爬虫已有一段时间，在掌握selenium后就一直想要本着学习交流的态度和淘宝程序员叔叔切磋一下，嘻嘻。唉，没想到这一切磋就耗费了我一天时间，不过还好，最后也小有成就，并且这次收获也不少，尤其对于网页的反蜘蛛机制。我先梳理下遇到的困难：1·网页登入，淘宝账号登入需要滑动验证码；支付宝账号登入，却找不到密码输入框标签。唉，愁死个人了2·成功登入后，...

2019-05-01 23:28:15 2658

原创 Python

安装报错0x80072f7d：解决方案：在此位置不要多选

2019-04-27 22:00:17 112

原创基础5·selenium库（浏览器模拟库）的使用方法

#打开浏览器from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()browser_add = r'D:\软件安装地址\360Chrome\Chrome\Application\360chrome.exe'chrome_op...

2019-04-27 18:06:48 351

原创基础4·requests库（网址请求库）的使用方法

# 导入import requests# 请求网址r = requests.get(url=url, params=params, headers=headers)url: 要访问的网站params: 可以用来拼接网址, 以字典形式添加headers: 请求头数据，以字典形式添加返回请求状态码# 处理json数据r.json()# 保存文本r.text二进制...

2019-04-27 16:18:41 404

原创基础13·豆瓣热门电影top250抓取（csv文件的使用）

import requests, json, timenum = [0, 51, 101, 151, 201, ]for i in num: url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=...

2019-04-26 20:12:58 1364

原创基础12·登入CSDN（selenium的使用，360浏览器的打开）

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timedef login(email, password): # 1. 驱动 __browser_url = r'D:\软件安装地址\360Chrome\Chrome\Application\...

2019-04-26 19:46:58 867

原创进阶3·超级课程表核心实现（selenium的使用，验证码识别）

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport pprint, timefrom selenium.common.exceptions import NoSuchElementExceptionfrom lxml import etreedef req...

2019-04-26 18:55:08 786 1

原创基础11·今日头条NBA图片抓取（Ajax渲染页面的抓取，URL中params的添加）

import requests, pprint, json, time, osdef get_text(url, offset): headers = { 'accept': 'application/json, text/javascript', 'accept-encoding': 'gzip, deflate, br', 'ac...

2019-04-25 23:03:16 486

原创基础10·360图片一页面的抓取（os库下新建多层文件夹，json转换dic）

import requests, pprint, time, jsonfrom lxml import etreedef get_text(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like G...

2019-04-24 22:37:51 149

原创基础9·最好大学网大学排名抓取（BeautifulSoup库，re库的使用，对应排名的输出）

import requests, time, refrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url): try: r = requests.get(url) r.encoding = r.apparent_encoding ret = r.tex...

2019-04-24 16:13:47 433

原创基础3·BeautifulSoup库（节点解析库）的使用方法

导入：from bs4 import BeautifulSoup解析网页代码:soup=BeautifulSoup(ret,‘html.parser’) html.parser:解析器类型使用函数

2019-04-24 14:26:34 638

原创基础2·lxml库（节点解析库）的使用方法

调用：from lxml import entree解析网页代码：html = entree.HTML(ret)网页源码修补：entree.tostring(html)文本获取：html.xpath('//<节点名称>/text()')节点获取：所有节点获取：html.xpath('//*')指定节点获取：html.xpath('//&lt...

2019-04-24 13:18:32 1784

原创基础8·起点小说一页爬取（xpath的使用，re库下的文本修改）

分析网页源代码发现，所需的文本储存在div标签下的p标签，并且p标签基本上只储存了想要获取的内容所以调用lxml会更省力import requests,time,refrom lxml import etreedef get_text(url): try: r=requests.get(url,timeout=30) r.raise_for_s...

2019-04-24 12:38:36 530

原创基础1·网页源代码的结构认识（BeautifulSoup库的解析）

2019-04-24 09:50:27 1668

原创 360极速浏览器配置Chromedrive

找到浏览器Chrome的版本：找到对应版本并下载：chromedriver版本支持的Chrome版本v2.46 v71-73v2.45 v70-72v2.44 v69-71v2.43 v69-71v2.42 v68-70v2.41 v67-69v2.40 v66-68v2.39 v66-68v2.38 v65-67v2.37 v64-66v2.36 v63-65...

2019-04-23 23:30:24 5775 3

原创基础7·猫眼电影排名爬取（多个网站的循环爬取）

import requests,re,timepages=[0,10,20,30,40,50,60,70,80,90]for page in pages: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...

2019-04-22 17:35:47 5613

原创基础6·登入知乎（cookie的加入及其在开发者工具里面的位置）

import requests,pprinturl="https://www.zhihu.com/question/268776431/answer/636026533"headers={ 'cookie':'_zap=817004a4-48cd-4d3e-bca1-27cbba533d52; d_c0="AHDkaADIEA-PTrT1Az_3EAea0_HOubh8LJ8=|1...

2019-04-22 17:06:41 746

空空如也

空空如也