2019/12/23工作总结二

1Python

1.1quantile数据排位点

rank=[0,0.4,0.6,0.8,1]
reault=mdata['列a'].quantile(rank)
q=0.6
x=mdata['列a'].quantile([q])[q]#获取第60%的值

1.2matplotlib显示中文和负号

matplotlib.rcParams['font.sans-serif'] = ['KaiTi']
matplotlib.rcParams['font.serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus']=False

1.3pandas数据筛选

data.drop(columns=['日期1','日期2','粉丝数1','粉丝数2'],axis=1,inplace=True)#删除某列
data['20s视频报价']=data['20s视频报价'].fillna('null')#填充空值
print(data[data['20s视频报价'].isin(['null'])])
df=data[data['性别'].isin(['保密'])|data['性别'].isin(['男生'])]# 字符的话要加[]
df=data[data['性别'].isin(['保密'])]#筛选性别是保密的行
df1=data[~data['性别'].isin(['保密'])]#筛选性别不是保密的行

#每一列都不空
for cname in mdata.columns:
    mdata=mdata[mdata[cname].notna()]

1.4pandas独热编码

data=data.join(pd.get_dummies(data['性别'],prefix='性别'))#将性别处理成独热编码 并加入到 dataframe中
mdata.drop(columns='性别',axis=1,inplace=True)#删掉原来的列

1.5pandas描述性

    print(data.info())
    print(data.describe())

1.6计算回归系数

        S_xy=0
        S_xx=0
        S_yy=0
        X_mean=np.mean(X)
        Y_mean=np.mean(Y)
        #计算回归系数
        for i in range(len(X)):
            S_xy+=(X[i]-X_mean)*(Y[i]-Y_mean)
            S_xx+=pow(X[i]-X_mean,2)
            S_yy+=pow(Y[i]-Y_mean,2)
        b1=S_xy/S_xx

1.7判断某str是否json类型

#判断某str是否json类型
def is_json(myjson):
    try:
        json_object = json.loads(myjson)
    except ValueError as e:
        return False
    return True

1.8soup = BeautifulSoup(html,‘html.parser’)

soup.find_all('div',class_='V_list_a')#找所有
v.find('a')['href']#获取 href的值
v.find('h3',class_='V_autocut_2l').string#下图
v.find('div',class_='V_box_col').get_text()#下图

在这里插入图片描述

1.9正则表达式AXXB

str='A哈哈哈B'
re.findall(r'A(.+?)B',str)

正则表达式也要注意需要转义 ‘\\‘代表’\’

1.10日期加1天

date1+=datetime.timedelta(days = 7)#date1加1天

(udate-vdate).days#两个日期差了几天

2爬虫

2.1设置cookie

cookie=''
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0',
    'Cookie': cookie
    }

r=requests.get(url, headers=headers,timeout=30)

2.2随机选择ip

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies


r = requests.get(url, headers=headers,timeout=30,proxies=get_random_ip(ip_list))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值