BeautifulSoup入门代码

最新推荐文章于 2023-05-14 09:00:00 发布

elisa_gao

最新推荐文章于 2023-05-14 09:00:00 发布

阅读量773

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haimengao/article/details/11921837

版权

Python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

import bs4
from bs4 import BeautifulSoup
import re
import sys
import os
import chardet

import urllib2

line='http://so.zhulang.com/search.php?k=%E9%BB%91%E9%81%93&t=zh&allmatch=1'
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
request = urllib2.Request(line,headers = headers)
r = urllib2.urlopen(request)
content = r.read()
# BeautifulSoup 接受一个字符串参数
soup = BeautifulSoup(content)



head=soup.head

aline=soup.findAll('a')

regex='.*'
result=[]

for line in aline:
    print line.encode('utf-8')
   
    print line.text
    
    url=re.findall(regex+'/Book/[0-9]+/Index.html'+regex+">"+('遮天').decode('GB2312').encode('utf-8')+"<",line.encode('utf-8'))
 
    if len(url)!=0:
        #print 'aa'
        result.append(url)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

elisa_gao CSDN认证博客专家 CSDN认证企业博客

码龄15年

69: 原创

75万+: 周排名

89万+: 总排名

19万+: 访问

: 等级

2338: 积分

21: 粉丝

21: 获赞

17: 评论

65: 收藏

私信

关注

热门文章

分类专栏

VIM 6篇
linux 3篇
Python 17篇
English 3篇
svn 1篇
algorithm 1篇
Xpath 1篇
NLP 8篇
C 2篇
C++ 7篇
putty 1篇
NLP
ML 25篇
MPI 1篇
ID_Language 1篇
markdown编辑 1篇

最新评论

在VS2012中C++嵌入python
m0_69859923: 这样操作之后，具体可以干什么呀？有对应的实例吗
K-means(tri)利用三角不等式性质加速k-means
zz__dm: 你好，谢谢楼主的分享，我最近遇到了三角形不等式优化kmeans ，不知道代码实现方面您可以给点意见吗，要用if 判断去优化吗？感觉这样很笨呀，好像也可以不用，您有什么意见，谢谢
分类&回归算法-随机森林
我再也不吃糖了: 博主你好，我想请问一下，能不能在同一棵树采用分类与回归相结合呢？（数据是分类数据与数值型数据各占一半那种）
在VS2012中C++嵌入python
元气少女缘结神: 我试过C++嵌普通的python程序可以，但是如果python中有io.imread或别的库的imread之类的函数就不行？
python 安装模块
小目标一个亿: 不行，我试过了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。