2023-03-11干活小计

切词 去停用词 正则留取中文, 记住这个pattern里面的-之间不能有空格哈哈

“OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.”解决方法总结_小鲨鱼不能停止思考的博客-CSDN博客

奇怪的错误 需要设置环境变量:

import os

KMP_DUPLICATE_LIB_OK=TRUE

爬虫:

1.服务器返回的数据形式:JSON HTML 二进制

2.保存方式:数据库 硬盘 and so on

3.抓包:f12 network 查看请求

HTTP 的请求方式有好几种:GET, POST, PUT, DELETE, HEAD, OPTIONS, TRACE;不过最常见的就是 GET POST 请求

4.Urllib:

request:就是用它来发起请求

error:就可以用它来进行异常处理

parse:parse模块就是用来解析我们的 URL 地址的,比如解析域名地址啦,URL指定的目录等

robotparser:这个用的就比较少了,它就是用来解析网站的 robot.txt

可以传入的参数主要有 3 个

urllib.request.urlopen(urldata=None, [timeout, ]*)

第一个 url 就是我们请求的链接,比如我们刚刚就请求百度

第二个参数 data,就是专门给我们 post 请求携带参数的,比如我们在登录的时候可以把用户名密码封装成 data 传过去,在这里的 data 的值我们可以用 byte 的类型传递

第三个参数 timeout 就是设置请求超时时间,用于如果等好久服务器都没有给我们返回数据

这就是  request 的 urlopen 主要用法。

模拟手机登录逼乎:

from urllib import request,parse
import ssl
if __name__ == '__main__':
    context = ssl._create_unverified_context()
    url = 'https://biihu.cc//account/ajax/login_process/'
    headers = {
    #假装自己是浏览器
    'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
}

    dict = {
        'return_url': 'https://biihu.cc/',
        'user_name': 'xiaoshuaib@gmail.com',
        'password': '123456789',
        '_post_type': 'ajax',
    }
    data = bytes(parse.urlencode(dict), 'utf-8')
    req = request.Request(url, data=data, headers=headers, method='POST')
    response = request.urlopen(req, context=context)
    print(response.read().decode('utf-8'))

5.Requests:

python爬虫04 | 长江后浪推前浪,Reuqests库把urllib库拍在沙滩上 

 6正则:

bert拼接没看懂,接来下看书了,看SVM PCA

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值