爬取大学公告信息 beautifulsoup的使用

原创 2017年01月03日 17:34:50
# -*-coding:utf-8-*-
import re
import urllib2

from bs4 import BeautifulSoup


def print_zh(key):
    s = "u'%s'" % key
    s = eval(s)
    print(s)

keyList = [u'项目', u'交流']
keyResult = []
url = 'http://urp.tust.edu.cn/bulletinPageList.jsp?pageNum=1&groupIds=Nyw4'
req = urllib2.Request(url)
res = urllib2.urlopen(req)
soup = BeautifulSoup(res.read(), "lxml")
lists = soup.select('li.an-list')
for li in lists:
    lise = li.select('div[class="an-title block"]')
    if lise:
        te = re.findall(r'title="(.*)"', str(lise))[0]
        for key in keyList:
            tempkey = str(repr(key))   # 正则经常用到的repr函数,要查看在Python内部到底是怎么表示的 类似于 u'\u5c31\u4e1a'
            tempkey = repr(tempkey)    # 这一步把转义字符暴露出来,方便匹配  类似于  u'\\u5c31\\u4e1a'
            tempkey = tempkey[3:tempkey.__len__() - 2]   # 这一步把前面的 u' 和后面的 ' 删掉
            if re.search(r'' + tempkey + '', te):
                # 打印中文title
                print_zh(te)
                lise2 = li.select('div[class="dep-angency block"]')
                herf = re.findall(r'href="(.*)"\s', str(lise2))
                # 打印对应链接
                print(herf)
                depart = lise2[0].select('a.deptlink')[0].get_text()
                # 打印对门
                print(depart)
                date_d = li.select("p")
                # 打印日期
                print(date_d[0].get_text())
                print('\n')
                break

参考 http://www.mamicode.com/info-detail-1377315.html

版权声明:本文为博主原创文章,未经博主允许不得转载。

python+beautifulsoup+smtp爬取学院网站的信息公告+邮件发送

最近学习了利用python爬虫,甚是有趣。所以写了个试用的小程序分享出来。 学院的相关通知都会放在网站的信息公告上,但每天打开电脑->打开浏览器->打开学院网站,就为了看个信息公告,挺麻烦还容易忘记...

使用BeautifulSoup爬取“0daydown”网站的信息(1)

最近发现一个很好的网站,0daydown,资源真的是无时无刻的更新着。资源有哪些呢: windows,mac下的各种工具和软件。各种电子书,包含科技,小说,杂志(居然还有类似花花公子那种),可以看多国...

使用BeautifulSoup爬取“0daydown”网站的信息(2)——字符编码问题解决

上篇中的程序实现了抓取0daydown最新的10页信息,输出是直接输出到控制台里面。再次改进代码时我准备把它们写入到一个TXT文档中。这是问题就出来了。 最初我的代码如下: #-*- coding: ...

Python爬虫小实践:使用BeautifulSoup+Request爬取CSDN博客的个人基本信息

好久都没有动Python了,自从在网上买了《Python网络数据采集》这本书之后一直没有时间写自己的小的Demo,今天再网络上无意中看见 http://www.cnblogs.com/mfryf/p/...

使用BeautifulSoup爬取小猪短租的租房信息

直接上代码 没有添加间隔时间 几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSou...

python3爬取使用BeautifulSoup爬取前程无忧的python招聘信息入库MongoDB!

import requests # 使用requests获取网页源码 from bs4 import BeautifulSoup # 使用bs4中的BeautifulSoup解析你得到的源码 im...

Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬取所需python包

python在ubuntu下安装一些软件包

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:爬取大学公告信息 beautifulsoup的使用
举报原因:
原因补充:

(最多只允许输入30个字)