Python处理中文文本字符时提取某个汉字或字符的方法

最近学了python扒取网页论坛信息,其实python在处理字符串和文本时,其封装好的函数功能很强悍的,何以很方便的调用处理信息。废话不多说,我在爬取论坛信息时遇到一个回帖信息,上边二楼及以下楼层回帖信息上标注比如“2楼网友回复”“3楼网友回复”等等,我要获取楼层数,说白了就睡获取第一个字符,然后转换为int型就OK了,可是在网页源码中get_text(),扒取后获得的是 '2楼网友回复',是文本信息,我们可以用python里的repr()函数或str()函数repr()返回的是一个对象的"官方"字符串表示(对python比较友好),绝大多数情况下可以通过求值运算(使用内建函数eval())重新得到该对象。即 obj= eval(repr(obj)),也有情况下,不能够通过eval()得到原来的对象str() 生成一个对象的可读性好的字符串表示(对用户比较友好),它返回的结果通常无法用于eval()求值,但很适用于print语句输出。

  再回到原来的问题,str1=“2楼回复”,str1.decode(‘utf-8’)进行解码,获得unicode形式的编码字符,然后repr(str1.decode(‘utf-8’))就实现了转换成了字符串形式,这时你可以用len函数求长度,获取其中某一个字符,对我而言我只需提取‘2’这个字符,int(repr(str1.decode(‘utf-8’))转换成int型即可,运行结果见下附图。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值