使用python的pyquery模块解析csdn个人博客的标题和描述

最近新学习了一个模块pyquery,用来解析html效果那是挺好的,可惜的是也有缺点,不能解析正文嵌套的其他格式,但是一般的获取信息那是不在话下的。
下面直接上脚本,挺简单的一个脚本

备注:因为直接用PyQuery的构造函数传入url csdn就不认识我了,所以直接伪造一个user-agent了,然后用了重载的传入string的方式,大部分网站还是支持直接传入url的。

好了,要解析的网址是:http://blog.csdn.net/cloud_huan

然后浏览器右键查看源码,查找到标题的关键字段为:

<div class="list_item article_item">
        <div class="article_title">   
         <span class="ico ico_type_Original"></span>


    <h1>
        <span class="link_title"><a href="/cloud_huan/article/details/47777129">
        <font color="red">[置顶]</font>
        一个测试的Android学习笔记 12.23            
        </a></span>
    </h1>
</div>

然后是描述的关键字段:

 <div class="article_description">
咳咳,手机测试已经有一年了,本人的意愿也是希望能在手机软件测试一直走下去。回想上一年在腾讯外包的日子,甜酸苦辣都有,但更多的是收货了...
本片不是总结啦,只是一个展望,毕竟,没有方向,没有目标是成不了大事的,或者,总要追求点什么...技术的路,最重要的是分享和总结,于是工作第二年,下定决定要写点什么,鉴于本人的技术低下,懒惰,完全是没有欲望写博文的...直到看到老罗的Android之旅,心中突...        </div>

所以分析之后,生成一个PyQuery对象,然后用类的选择条件筛选文本快内容,最后因为有很多个标题,所以循环读取赛选结果,取得每一篇文章的标题和描述。

最后的完整文件如下:

# _*_ coding:utf-8 _*_

from pyquery import PyQuery as pq
import urllib2

t = []
d = []
#csdn不让直接解析,会403,所以伪造了http请求头
head_req = {'User-Agent':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)'}
req = urllib2.Request("http://blog.csdn.net/cloud_huan",headers=head_req)
result = urllib2.urlopen(req).read()
doc = pq(result)
#查找类名为article_title,返回一个PyQuery对象
doc_title = doc('.article_title')
#这里迭代PyQuery出来的是<class 'lxml.html.HtmlElement'>就是html元素了
for i in doc_title:
    title = pq(i).text()
    t.append(title)
doc_des = doc('.article_description')
for i in doc_des:
    des = pq(i).text()
    d.append(des)
for i in range(0,len(t)):
    print t[i],'---',d[i]
    print '*********************'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: argparse是Python标准库中的一个命令行解析模块。它可以自动生成帮助和使用信息,并且支持默认值、可选参数、位置参数等。 下面是一个简单的使用argparse的例子: ```python import argparse parser = argparse.ArgumentParser(description='A simple argparse example') parser.add_argument('-n', '--name', type=str, help='Your name') parser.add_argument('-a', '--age', type=int, help='Your age') args = parser.parse_args() print('Hello,', args.name, 'your age is', args.age) ``` 运行上面的代码后,可以通过命令行来传入参数,如: ``` python test.py -n John -a 30 ``` 这样就能在程序中得到参数name和age的值,输出: ``` Hello, John your age is 30 ``` argparse模块还支持其他选项,如添加默认值、设置参数为可选或必选等,详见官方文档。 ### 回答2: argparse是Python中的一个命令行参数解析模块。它可以用来解析命令行参数以及生成用于帮助文档的用户友好的提示信息。 使用argparse模块可以轻松定义和解析命令行参数。下面是一个argparse的简单实例: 假设我们要编写一个程序来计算两个数字的和。我们希望能够从命令行传递这两个数字作为参数,并且能够选择是否将计算结果打印出来。 首先,我们需要导入argparse模块,然后创建一个ArgumentParser对象: import argparse parser = argparse.ArgumentParser() 然后,我们可以使用add_argument()方法来定义我们需要的参数: parser.add_argument("num1", type=int, help="第一个数字") parser.add_argument("num2", type=int, help="第二个数字") parser.add_argument("-p", "--print", action="store_true", help="打印计算结果") 在这个例子中,我们使用add_argument()方法定义了两个位置参数num1和num2,分别表示第一个数字和第二个数字。我们还使用了一个可选参数--print(简写为-p),用来表示是否打印计算结果。action="store_true"表示如果命令行中指定了--print参数,则将其存储为True,否则为False。 接下来,我们需要使用parse_args()方法来解析命令行参数: args = parser.parse_args() 现在,我们可以使用args对象来访问用户输入的参数了: sum_result = args.num1 + args.num2 if args.print: print("计算结果:", sum_result) 最后,我们可以将上述代码保存为一个Python脚本文件,然后在命令行中运行该文件,并传递两个数字和可选的--print参数来测试程序的功能,例如: python calculator.py 2 3 --print 以上就是argparse模块解析和实例的简单介绍。这个模块非常灵活和强大,可以用于处理各种类型的命令行参数,包括位置参数、可选参数、默认值等等。它还可以生成用户友好的帮助文档,以方便用户使用程序。 ### 回答3: Python的argparse模块是一个用于解析命令行参数的库。它可以帮助我们在命令行中传递参数,并且提供了一些额外的功能,比如生成帮助信息和错误提示。 使用argparse模块非常简单。我们首先需要导入argparse库,然后创建一个ArgumentParser对象。然后,我们可以使用add_argument()方法来添加我们需要的命令行参数。 add_argument()方法有很多参数可以配置,比如name或flags指定参数的名称,type指定参数的类型,default指定参数的默认值等等。我们可以根据我们的具体需求来配置这些参数。 当命令行参数被定义后,我们可以通过parse_args()方法来解析命令行参数。这个方法会返回一个包含解析后的参数的命名空间对象,我们可以使用这个对象的属性来访问具体的参数值。 下面是一个使用argparse模块的简单示例: ```python import argparse # 创建ArgumentParser对象 parser = argparse.ArgumentParser(description='这是一个解析命令行参数的示例') # 添加命令行参数 parser.add_argument('name', type=str, help='你的名字') parser.add_argument('age', type=int, help='你的年龄') # 解析命令行参数 args = parser.parse_args() # 访问参数值 print('你好,{},你的年龄是{}岁。'.format(args.name, args.age)) ``` 在上面的示例中,我们创建了一个ArgumentParser对象,并添加了两个命令行参数:name和age。然后我们解析命令行参数,并使用args对象访问参数值并打印出来。 当我们在命令行中运行这个脚本时,我们需要在脚本名称后面提供两个参数,即我们的名字和年龄。比如: ``` $ python script.py Alice 25 ``` 这样,脚本就会打印出:`你好,Alice,你的年龄是25岁。`

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值