2023-03-13干活小计

08:30到达实验室 24:00左右离开

切片操作中:[]中,逗号,区分的是维度,冒号:区分的是索引,省略号… 用来代替全索引长度

rnn 文本分类终于跑完了

古诗生成:

正则表达式:

 #pattern = re.compile(r"[0123456789]") #0到9
 #pattern = re.compile(r"[0-9]")     #0到9
 #pattern = re.compile(r"[a-z]")  # a到z
 #pattern = re.compile(r"[A-Z]")  # A到Z
 #pattern = re.compile(r"[\-]")  #匹配横杠
 #pattern = re.compile(r"[^0-9]")    #匹配非数字 ^代表取反
 #pattern = re.compile(r"\d")  #所有数字 \D取反
 #pattern = re.compile(r"\w")  #所有汉字字母数字 下划线 \W取反
 #pattern = re.compile(r"\s")     #匹配空格
 #pattern = re.compile(r"\b\D\b")     #匹配有边界的目标词 即两边都是空格
pattern1 = re.compile(r"^python")                                          #  以什么开始
pattern2 = re.compile(r"python$")                                          # 以什么结束
result1 = pattern1.findall("python python")
result2 = pattern1.findall("python python")

pattern1 = re.compile(r".ar$")  # .代表除了\n以外的任何字符
result1 = pattern1.findall("python python star")

pattern1 = re.compile(r"honou?r")  #   ?可选字符 0次或1次
result1 = pattern1.findall("which is right honour or honor? or honouuur")
pattern1 = re.compile(r"\d{9}")  #   匹配九个数字
result1 = pattern1.findall("23948093285094328509432850943859")
pattern1 = re.compile(r"\d{8,9}")  #   八、九个数字 遇到九个只匹配九个
result1 = pattern1.findall("23948093285094328509432850943859")
pattern1 = re.compile(r"\d{8,9}?")  #   八、九个数字 匹配八个 非贪婪模式
result1 = pattern1.findall("23948093285094328509432850943859")
pattern1 = re.compile(r"\d{1,}?")  #   *等于{0,}0到无穷大 +等于{1,} 1到无穷大
result1 = pattern1.findall("23948093285094328509432850943859")
pattern1 = re.compile(r"^1[34578]\d{9}")  
#匹配所有电话号码 第一位1  第二位34578 后面九个0-9
result1 = pattern1.findall("15927433677")
pattern1 = re.compile(r"^http.*/$")  #   http 开头 /结尾的数据
result1 = pattern1.findall("https://mp.csdn.net/mp_blog/creation/")

进阶:

pattern1 = re.compile(r"\d{4}-\d{7}")  #   匹配下面的电话号码
result1 = pattern1.findall("张三:0731-8283333")
pattern1 = re.compile(r"<div>(.*?)</div>")  #   用括号将需要的内容提取出来
result1 = pattern1.findall("<div>dhl</div>")

#|是或者

同门教我写的爬虫:

import json
import re
import jsonlines

import requests
from bs4 import BeautifulSoup

if __name__=="__main__":
    for i in range(6000):
        try:
            data=requests.get("https://www.jyznl.cn/"+str(i)+".html").text
            soup=BeautifulSoup(data,'html.parser')
            title=soup.find('title').text
            print(title)
            content_list=soup.findAll(name="div",attrs={"class":"entry-content u-clearfix"})
            results=soup.select('div[class="entry-content u-clearfix"] p')
            print(results)
            tem_dict={}
            tem_dict['title']=title
            tem_content=""
            tem_dict['paper_id']=i
            for i,tem in enumerate(results):
                if(i<len(results)-1):
                    tem_content+=tem.text
            tem_dict['content']=tem_content
            with jsonlines.open('test.jsonlines','a') as f:
                # json_str=json.dumps(tem_dict,ensure_ascii=False)
                # f.write(json_str)
                f.write(tem_dict)
            f.close()
        except:
            pass

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值