python3.0 糗事百科

最新推荐文章于 2020-12-18 06:38:30 发布

Ricecongee

最新推荐文章于 2020-12-18 06:38:30 发布

阅读量334

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/Ricecongee/article/details/68951924

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import urllib.request
import re

def getSentence(data):
	partern = r'<span>(.*?)</span>'
	strlist = re.findall(partern,data)
	return strlist

url = "http://www.qiushibaike.com/"
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'

headers = { 'User-Agent' : user_agent,
			'If-None-Match' : "6e0f605c36f86beeee986d350bf78be89d606ee5"}
try:
	req = urllib.request.Request(url,headers = headers)
	result = urllib.request.urlopen(req).read()	
	strlist = getSentence(result.decode() )
	foo = open("qsbk.txt","w")
	for i in strlist:
		if(i.startswith('<img') == False):
			foo.write(i)
			foo.write("\n\n")
	
except urllib.request.URLError as e:
	if hasattr(e,"code"):
		print(e.code)
	if hasattr(e,"reason"):
		print(e.reason)

参照希望姐的笔记写的，自己改动了一下

http://cuiqingcai.com/990.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ricecongee

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、使用Scrapy框架爬取糗事百科段子

weixin_54707168的博客

03-15

296

【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、使用Scrapy框架爬取糗事百科段子

python语言实例-Python代码样例列表

weixin_37988176的博客

11-01

3701

├─algorithm│ Python用户推荐系统曼哈顿算法实现.py│ NFA引擎,Python正则测试工具应用示例.py│ Python datetime计时程序的实现方法.py│ python du熊学斐波那契实现.py│ python lambda实现求素数的简短代码.py│ Python localtime()方法计算今天是一...

参与评论您还未登录，请先登录后发表或查看评论

老司机带你30行代码爬糗事百科成人版

热门推荐

gane12534的博客

09-15

4万+

学了大概一个月爬虫了，看着人家爬东爬西的，自己也按捺不住终于写好了自己的爬虫，而且是福利哦。这里我们主要用到了requests库，推荐大家用python 3.0+以上版本。import urllib import re import requests from requests.exceptions import RequestException #这里是我们要爬的网址，为了示例只爬取20页 f

Python抓取糗事百科成人版图片

weixin_34062329的博客

04-23

3万+

最近开始学习爬虫，一开始看的是静觅的爬虫系列文章，今天看到糗事百科成人版，心里就邪恶了一下，把图片都爬下来吧，哈哈~ 虽然后来实现了，但还是存在一些问题，暂且不提，先切入正题吧，没什么好说的，直接上代码如下：环境：Python2.79 1 #coding: utf-8 2 import urllib2 3 import urllib 4 import re 5 ...

糗事百科成人版段子爬虫实战

zzh的博客

10-10

4万+

糗事百科成人版的段子爬虫因此正则表达式可以写成然后观察网址规律，发现格式是…page/n，n是页数因此可以自己构造url访问多页最后是针对某些反爬机制可以自己添加用户代理池和ip代理池然后随机调用代理池（这个糗事百科没什么反爬机制可以不写）常用用户代理池 https://blog.csdn.net/wangqing84411433/article/details/896003...

Xpath--使用Xpath爬取糗事百科成人版图片

weixin_30908103的博客

11-29

9896

#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 爬取糗事百科.py@time: 2018/11/29 20:43"""'''content返回的是byte型数据，而text返回的是Unicode数据，也就是说text对原始数据进行的特殊的编码，而这个编码方式是基于对原始数据的猜测(响应头)，text一般用于返回的...

Python抓取糗事百科网页信息以及源码下载

11-21

http://www.qiushibaike.com/hot/page/1# 代码中使用这个网址获取网页中的信息的。网址中的1代表第一页，该数字累加，就是不同页的信息。每一页显示20条糗事，每条糗事有头像，用户姓名，糗事内容，糗事内容图片（该图片可有可无，没有图片的话，糗事内容就是纯文本形式），以及点赞或者好笑数量。

【爬虫】python 抓取百度百科简介导出txt（含自动翻页）（安装chromdriver）未完

神创的博客

03-15

369

参考：http://blog.csdn.net/forever_mumu/article/details/51009533（主要的参考，不过用的是python2 ，和我的Python有冲突）http://blog.csdn.net/shujuliu818/article/details/53587085 （为了解决其中代码的问题，参考了这个文章）摘录一下：（3.0版本中已经将urllib2、url...

python代码示例-Python代码样例列表

q6q6q的专栏

10-28

4135

糗百文化：糗事百科的运营哲学

congjin4106的博客

07-27

805

　　引言：糗百从2005年成立，至今已经发展了7年多，积累了大量的优质内容和用户，从一个默默无闻的小站成长为日PV过千万，成为中文社区有独特文化的娱乐网站，糗百有自己独特的运营策略和手段。　　糗事百科是以网友真实糗事为...

电影源码电影网站源码模板

01-20

源码是php的 941看电影网源码和其他电影网站模板不同之处，网站播放视频无需安装任何播放器，打开页面就能播放！用户体验友好。如果一个网站给我看个电影还要我安装播放器，我是果断关闭页面的。谁都希望打开网站点击就能播放！ 1、此网站是本人自己制作，绝对安全！优点：可以生成静态页面！对于seo绝对是很看重的！ 2、更具杀伤力的是网站不需要几十上百G的空间就可以发布电影！因为电影都是直接使用迅雷链接和电驴链接直接播放的。不需要存储视频文件。可以大大节省空间！ 3、还有一大好处是可以实现点播功能！使用迅雷链接或电驴链接直接就能播放！优点是片源广泛！ 4、网站还有推广功能！注册用户只要推广给别人注册就能获得积分。这就很大程度的让你的用户帮你宣传网站。不想付费却想看电影的人即使你没赚他的钱但也可以利用他帮你推广网站。 5、盈利模式多样化，部分电影需要积分，用户可以购买积分观看。实现盈利、还可以挂上淘宝客页面！推广一些看电影的人爱买的东西！也可以挂广告！ 6、还有一个绝杀的秘籍教程。

地方成人教育中心整站源代码 v1.0.zip

07-05

淡蓝大气的某地方成人教育中心整站源代码，后台地址：manage 用户名：admin 密码：admin888

八连块问题

11-07

这个讲的是一个关于八连块的问题的解释可以参考一下但是没有用栈来

想让人瞬间死心只能豁出去把自己和一种恶心的东西连接在一起，一旦生理反抗达成。想不死心也不行。

我用CV我自豪。

07-07

2161

女人的哪些行为会让男性对其瞬间彻底死心？并且，被戴绿帽子之后纠缠甚久甚至不计前嫌的人太多太多了。印象中只有一例啊。。大概是什么人在糗事百科说的。和女友XXOO之后，女友把屁股对着他的脸，大概是想放屁臭臭他什么的。。但。。她拉了一坨在他脸上。。。这个事件导致瞬间死心。。难以复原也难以纠缠。。因为他一想到那个人眼前就是一坨屎。。。

python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子

weixin_40007541的博客

12-18

240

学习爬虫，其乐无穷！今天给大家带来一个爬虫案例，爬取糗事百科搞笑内涵段子。爬取糗事百科段⼦，假设⻚⾯的 URL 是：http://www.qiushibaike.com/8hr/page/1一、爬取要求：使⽤requests 获取⻚⾯信息，⽤XPath / re 做数据提取。获取每个帖⼦⾥的⽤户头像链接、⽤户姓名、段⼦内容、点赞次数和评论次数。保存到 json ⽂件内。二、先来看...

关于如何使用原生HTML + JS + CSS绘制简单折线柱状图

weixin_33940102的博客

11-29

743

前言 CSS确实很重要，且有点奇技淫巧，看起来规则十分简单，但是创意更重要，如何用css构造出自己想要的效果，写的代码好看优雅十分重要。在看了不借助Echarts等图形框架原生JS快速实现折线图效果并自己重新实现了以后，实在是感慨CSS的强大之处，并作出记录。正文先上结果图：总结下自己觉得关于几点比较难以理解的点： 1. 如何实现以下效果：以上是由一个div配合其after伪元素完成...

python爬虫爬取糗百成人图片多线程版本

fenyujinian的专栏

11-09

2064

来个简单的多线程，爬取速度比单线程要快很多，下面上代码： #encoding:utf-8 #多线程爬取 import requests import os from bs4 import BeautifulSoup import threading import urllib.request FIRST_PAGE_URL = 'http://www.qiubaichengren.com/{}

python 爬虫糗百成人

weixin_33935777的博客

04-23

2285

import urllib from time import sleep import requests from lxml import etree try: def all_links(url,page): # if "900.html" in url: # print("结束"); # return None...