MrRenLG-CSDN博客

原创 pandas

''' 【课程2.14】数值计算和统计基础常用数学、统计方法 ''' # 基本参数：axis、skipna import pandas as pd import numpy as np df=pd.DataFrame({ 'key1':[4,5,3,np.nan,2], 'key2':[1,2,np.nan,3,5], 'key3':...

2019-05-27 14:21:06 247

原创 datetime基础

''' 【课程2.8】时间模块：datetime datetime模块，主要掌握：datetime.date(), datetime.datetime(), datetime.timedelta() 日期解析方法：parser.parse ''' # datatime.date :date 对象 import datetime today=datetime.date.today() ...

2019-05-25 09:43:24 278

原创 pandas_DataFram基础

''' 【课程2.5】 Pandas数据结构Dataframe：基本概念及创建 "二维数组"Dataframe：是一个表格型的数据结构，包含一组有序的列，其列的值类型可以是数值、字符串、布尔值等。 Dataframe中的数据以一个或多个二维块存放，不是列表、字典或一维数组结构。 ''' import pandas as pd import numpy as np # Datafrom ...

2019-05-24 14:50:02 401

原创 pandas_Series基础学习

''' 【课程2.2】 Pandas数据结构Series：基本概念及创建 "一维数组"Serise ''' import numpy as np import pandas as pd # 基本概念 Series # Series s=pd.Series(np.random.rand(5)) print(s) s=pd.Series(np.array([1,2,3,5,4])) prin...

2019-05-24 14:48:09 292

原创 python执行shell脚本创建用户及相关操作

用户发送请求，返回帐号和密码 ###利用框架flask 整体思路： # 目的：实现简单的登录的逻辑 # 1需要get和post请求方式需要判断请求方式 # 2获取参数 # 3执行shell # 4如果判断都没问题，就返回结果导包 ... 给模版传递消息用flash --需要对内容加密，因此需要设置 secret_key , 做加密消息的混淆 app = Flask(__name__) ...

2019-04-09 18:09:04 1454 1

原创 1-7 bs4入门

xpath 模糊查询 //div[contais(@id," <...> ")] 取下一个节点（平级关系） following-sibling::* #bs4 用选择器查找 # 1.转类型 # 默认bs4会调用系统中lxml的解析库。所以会有较高提示，主动设置解析库 soup = BeautifulSoup(html_doc, features="lxml") #格式化输出 ...

2019-03-29 21:38:28 239

原创 1-6 网页解析

1.拆分字符串 split() 2.匹配中文范围：\u4e00-\u9fa5 [\u4e00-\u9fa5]+ #+至少出现一次 ##百度新闻正则 import re import requests url = " ... " headers = { ... } res = requests.get(url,headers=headers) html = res.text.dec...

2019-03-29 21:37:26 178

原创 1-5 爬虫入门

内网需要认证 auth = (user, pwd) reponse = request.get(url, auth=auth) proxy url = "http://www.baidu.com" headers = { ... } # 添加代理 proxy = {'http': '<ip>:<端口>'} response = requests.get(urlurl,he...

2019-03-29 21:36:41 177

原创 1-4 添加cookie的方式

#cookie ##第一种方式手动复制抓包的cookie，放在request对象的请求头里 headers = { "User-Agent": UserAgent().chrome, "cookie": " ... " } ##第二种方式 cookiejar自动保存cookie 后台根据你发送请求方式来判断你是get请求（登录页面），如果是post请求（结果页面） #登录...

2019-03-29 21:35:38 617

原创 1-3 代理格式以及auth认证

mac电脑默认解码方式是utf-8 windows默认解码方式是gbk #付费代理 ###付费代理发送 1.用户名密码（带着）通过验证的处理器来发送第一种方式付费代理方式 #代理ip proxy = { "http": "<username>:<pwd>@192.168.0.2:8080" } #2.代理的处理器 handler = urllib.request.P...

2019-03-29 21:34:51 519

原创 1-2动态UA以及代理IP

import urllib.request import urllib.parse import string def get_params(): url = "http://www.baidu.com/s?w" params = { "wd": "中文", "key":"zhang", "value":"san" } #urlencode 可以将字典直接拼接到原来的u...

2019-03-29 21:33:22 324

原创爬虫入门1-1

#入门爬虫分类 1.通用爬虫 2.聚焦爬虫增量式 deep 深度爬虫动态数据 js代码，加密js robots：是否允许其他爬虫（通用爬虫）爬取某些内容聚焦爬虫不遵守 robots 爬虫和反扒：资源对等胜利的永远是爬虫 ###爬虫的工作原理： 1.确认抓取目标的url是哪一个（找）* 2.使用python代码发送请求，获取数据（java、go） 3.解析获取到的数据（精确数据）* 找...

2019-03-28 17:05:09 184