- 博客(92)
- 资源 (1)
- 收藏
- 关注
原创 2020-11-16
免费ipimport requests # 导入网络请求模块from lxml import etree # 导入HTML解析模块import pandas as pd # 导入pandas模块ip_list = [] # 创建保存ip地址的列表def get_ip(url, headers): # 发送网络请求 response = requests.get(url, headers=headers) response.encoding = 'ut.
2020-11-16 18:07:03 199
原创 数据清洗
import numpy as npdef get_repeated_label(array_1dim): label_1dim=[] for k in range(len(array_1dim)-1): for i in range(k+1,len(array_1dim),1): if array_1dim[k]==array_1di...
2018-06-06 17:13:28 410
原创 数据分析简介
零,数据分析简介什么叫数据分析,它要达到何种目的。数据分析指的是通过统计学方法对采集来的数据进行整理和分析,并从中提取有用信息,从而得出结论的过程。某些学者认为,数据分析分为三类,入门级的描述性数据分析,其方法主要有对比、平均、交叉分析法。高级的探索和验证数据分析,分析方法主要有相关分析,回归分析,因子分析。这样的提法自有它的道理。在我看来,实际上就分两类:描述性统计分析和计算性数据分析...
2018-06-05 20:49:09 2358
原创 (89)--Python数据分析:Pandas画图
# Pandas画图import itertoolsfrom math import expimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef lasso_regression(X_array, y, lambd, threshold=0.1): #通过坐标下降(coordinate de...
2018-05-23 09:35:24 543
原创 (88)--Python数据分析:线性回归分析
# 线性回归分析import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom scipy import linalgtita_list=[]def upload_csv(name): array_data=np.loadtxt(fname=name,dtype=np.float64,delimit...
2018-05-17 20:46:10 1271
原创 (87)--Python数据分析:指数密度函数与指数分布图
# 指数密度函数与指数分布图 lambd = 0.5x = np.arange(0,15,0.1)y = lambd*np.exp(-lambd*x)plt.plot(x,y)plt.title('Exponential:$\lambda$=%.2f' % lambd)plt.xlabel('x')plt.ylabel('Probability density')plt.show()...
2018-05-16 19:07:24 5735
原创 (86)--Python数据分析:散布图
# 散布图必须通过两个数据序列才能绘制而成,也可以通过一个数据框绘制成散布矩阵。 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltX1=np.arange(1,1002,1)X2=np.random.normal(3,1,1001)X3=np.random.randn(1001)X4=np...
2018-05-11 20:14:41 1374
转载 (85)--Python数据分析:简单线性回归
# 散点图描绘(一)准备工作1.编程环境:Python3.5.2(使用其自带的IDLE,并已经配置好环境变量),win10。2.使用到的包:numpy,matplotlib,Pandas,sklearn,OrderedDict,matplotlib (注:可用pip install xxx直接安装,有问题就直接搜索引擎解决)。3.数据源:a. ex0.txt :https://pan.baidu...
2018-05-10 14:00:01 1166
原创 (84)--制作数据面板
# 制作数据面板df1 = pd.read_csv(r'Desktop\1.csv')df1Out[90]: a b c d0 3 5 8 41 4 6 9 52 5 7 10 63 6 8 11 74 7 9 12 85 8 10 13 96 9 ...
2018-05-07 20:18:02 479
原创 (83)--用代码实现超越函数
# 实现一个超越函数:y = x*sin(x)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltser=pd.Series(np.sin(np.linspace(0,7,1000)),index=list(np.linspace(0,7,1000)))asd,as_2=plt.subplots(fig...
2018-05-07 19:09:30 1106 1
原创 (82)--用代码实现简谐运动
# 模拟实现简谐运动# temp.pyimport matplotlib.pyplot as pltimport numpy as npdef f(t): return np.cos(2 * np.pi * t)a = np.arange(0.0,5.0,0.02)plt.plot(a,f(a))plt.xlabel('横坐标(时间)',fontproperties='Ka...
2018-04-27 16:32:57 2766
原创 (81)--图片修改小技巧之手绘
# 深入理解图片成像原理以及数据背后含义之后制作一个小程序# temp.pyfrom PIL import Imageimport numpy as np# 图像手绘效果a = np.asanyarray(Image.open(r'D:\学习\作业\趣图\01.jpg').convert('L')).astype('float')depth = 10grad = np.gradient...
2018-04-26 16:16:48 289
原创 (80)--图片修改小技巧
# 深入理解图片成像原理以及数据背后含义之后制作一个小程序# temp.pyfrom PIL import Imageimport numpy as npa = np.array(Image.open(r'D:\学习\作业\趣图\01.jpg'))print(a.shape,a.dtype)b = [255,255,255] - aim = Image.fromarray(b.as...
2018-04-26 11:51:23 206
转载 (79)--爬取网页信息
# 增加搜索功能import reimport urllib.requestimport jsondef InsertDict(D, key, value): D.setdefault(key) D[key] = valuedef GetHtml(url): response = urllib.request.urlopen(url) text = re...
2018-04-24 11:07:52 269
原创 (78)--用框架爬取招聘信息
(78)--用scrapy框架简单爬取赶集网信息# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl spider_ganji'.split())# spider_ganji.py# -*- coding: utf-8 -*-import scrapyfrom ..items import WwwGanjiIte...
2018-04-19 15:33:25 1513
原创 (77)--用框架爬取博客园信息并保存到数据库
# 用框架爬取博客园信息并保存到数据库# cnlogs_itload.py# -*- coding: utf-8 -*-import scrapyimport refrom ..items import CnblogItem,CnblogItemLoaderfrom datetime import datetimefrom w3lib.html import remove_tagsf...
2018-04-12 19:31:38 441
原创 (76)--用框架爬取交友信息并保存到数据库
# 用框架爬取交友信息并保存到数据库# yuehui.py# -*- coding: utf-8 -*-import scrapyimport jsonimport mathfrom ..items import YuehuiItem,TrueHeartItemimport reclass YuehuiSpider(scrapy.Spider): name = 'yuehui...
2018-04-11 19:07:55 352
原创 (75)--用框架爬取腾讯招聘信息并保存到数据库
# 用框架爬取腾讯招聘信息并保存到数据库# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl tencent_new'.split())# tencent_new.py# -*- coding: utf-8 -*-import scrapyfrom urllib import request,parsefrom ...
2018-04-10 16:59:42 565
原创 (74)--用框架爬取腾讯招聘首页
# 用框架爬取腾讯招聘首页# tencent.py# -*- coding: utf-8 -*-import scrapyfrom ..items import JobItemfrom datetime import datetimeclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains =...
2018-04-10 14:55:30 360
原创 (73)--用框架爬取兄弟连老师信息
# 用框架爬取兄弟连老师姓名# xdl.py# -*- coding: utf-8 -*-import scrapyclass XdlSpider(scrapy.Spider): name = 'xdl' # allowed_domains = ['www.xdl.cn'] start_urls = ['http://www.itxdl.cn/activity/te...
2018-04-09 19:15:39 377
原创 (72)--爬取中执行JS代码
# 用JS代码自动运行程序from selenium import webdriverimport timechrome = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'https://image.baidu.com/search/index?ct=201326592&...
2018-04-09 11:57:42 397
原创 (71)--爬取拉勾网招聘信息
# 爬取拉勾网招聘信息from selenium import webdriverimport timefrom lxml import etreedc = { 'phantomjs.page.customHeaders.User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM...
2018-04-09 10:16:02 837
原创 (70)--爬取哦漫画图片并下载到相应文件夹
# 爬取哦漫画图片并下载到相应文件夹from selenium import webdriverimport timeimport requestsfrom bs4 import BeautifulSoupimport refrom urllib import request,parseimport os# 1.获取漫画章节链接phantom = webdriver.Phant...
2018-04-08 20:14:52 699
原创 (69)-- selenium的简单应用
# selenium的简单应用from selenium import webdriverimport timebrowser = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'http://www.baidu.com'browser.get(base_url)...
2018-04-08 16:56:06 243
原创 (68)-- 爬取糗百信息
# 爬取糗百信息import threadingfrom queue import Queueimport requestsfrom lxml import etreeimport time# 最大开启采集线程数(并发数)concurrent = 3# 解析并发数conparse = 3class Crawl(threading.Thread): def __init...
2018-04-08 16:05:49 421
原创 (67)-- 多线程爬取腾讯招聘并存入数据库
# 多线程爬取腾讯招聘职位信息并存入数据库 # mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0.0.1','root','123456','han',charset='utf8') se...
2018-04-04 16:40:38 352
原创 (66)-- 多进程爬取腾讯招聘信息
# 用多进程爬取腾讯招聘的文本信息from multiprocessing import Poolimport requestsfrom bs4 import BeautifulSoupimport timebase_url = 'http://hr.tencent.com/position.php?start=%d'headers = { 'User-Agent' : '...
2018-04-04 11:13:42 2673
原创 (65)-- 爬取58交友信息
# 二级爬取58交友的名字、年龄、身高、学历、图片信息,并把这些信息保存到数据库中# 首先要在当前目录下建立一个58文件夹,然后通过Navicat连接到数据库# mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0....
2018-04-03 16:27:03 350
原创 (65)-- 爬取兄弟连老师信息
# 爬取兄弟连老师信息,先建一个teacher文件夹from bs4 import BeautifulSoupimport requestsfrom urllib import requestimport jsonbase_url = 'http://www.itxdl.cn/activity/teacher/teacher_lieibiao/'response = requests....
2018-04-03 11:53:59 298
原创 (63)-- 爬取兄弟连网页信息
# 爬取兄弟连网页信息,包括详细信息和图片import requestsfrom lxml import etreeimport jsonfrom urllib import requestdef getUrl(): base_url = 'http://www.itxdl.cn/html/php/phparticles/' response = requests.ge...
2018-04-02 19:11:06 267
原创 (62)-- 打包压缩下载
# 打包压缩下载import urllibfrom urllib import requestimport osdef Schedule(a,b,c): ''' a:已下载数据块 b:已下载数据块大小 c:总文件大小 ''' per = 100.0 * a * b / c if per > 100 : ...
2018-03-30 16:26:22 239
原创 (61)-- 用代理IP爬取网页
# 用随机代理IP简单爬取网页内容# download.py文件import randomfrom urllib import requestimport jsondef getProxy(): with open('xici.json', 'r', encoding='utf-8') as f: proxies = f.read() proxie...
2018-03-30 11:16:26 6702
原创 (60)-- 用程序改写豆瓣会员签名
# 用程序改写自己豆瓣签名from urllib import request,parsefrom http import cookiejarimport recookie = cookiejar.CookieJar()cookie_handler = request.HTTPCookieProcessor(cookie)opener = request.build_opener(co...
2018-03-29 19:54:11 253
原创 (59)-- 微信聊天小程序
# 与好友聊天小程序import itchatitchat.auto_login(hotReload=True)friends = itchat.get_friends()yourinput = input("请输入好友昵称: ")yourmessage = input("请输入发送内容:")for friend in friends: if friend['NickName']...
2018-03-29 11:56:56 1115
原创 (58)-- 用正则层层爬取图片
# 用正则层层爬取图片from urllib import requestimport rebase_url = 'http://www.mmonly.cc/wmtp/fjtp/list_21_{}.html'def download(pic_url): print('downloading...%s' % pic_url) fname = pic_url.split('...
2018-03-28 20:11:51 346
原创 (57)-- 用正则简单爬取图片
# 用正则爬取单页图片from urllib import requestimport rebase_url = 'https://tieba.baidu.com/p/5504076850'response = request.urlopen(base_url)html = response.read().decode('utf-8')pat = re.compile('<img ...
2018-03-28 10:37:55 398
转载 (56)-- 应用程序接口(API)
应用程序接口编辑词条API之主要目的是提供应用程序与开发人员以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。提供API所定义的功能的软件称作此API的实现。API是一种接口,故而是一种抽象。应用程序接口(英语:ApplicationProgrammingInterface,简称:API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。由于近年来软件的规模日益庞大,常常需...
2018-03-27 20:40:47 818
原创 (55)-- 简单爬取人人网个人首页信息
# 简单爬取人人网个人首页信息from urllib import requestbase_url = 'http://www.renren.com/964943656'headers = { "Host" : "www.renren.com", "Connection" : "keep-alive", "Upgrade-Insecure-Requests" : "1.
2018-03-27 16:18:45 4743
原创 (54)-- 简单模拟百度翻译
# 简单模拟百度翻译from urllib import request,parseimport jsondef trans(keyword): base_url = 'http://fanyi.baidu.com/sug' data = { 'kw':keyword } data = parse.urlencode(data) head...
2018-03-27 13:57:44 577
原创 (53)-- 做个简单贴吧及页数搜索
# 做个简单贴吧及页数搜索from urllib import request,parsedef search(kw,i): base_url = 'http://www.baidu.com/s?' i = int(i) pa = 50 * (i - 1) qs = { 'kw' : kw, 'pn' : pa } ...
2018-03-26 20:11:28 207
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人