python 爬虫——58同城

最新推荐文章于 2022-12-13 21:53:30 发布

choucan8779

最新推荐文章于 2022-12-13 21:53:30 发布

阅读量261

点赞数

文章标签：爬虫 python

原文链接：https://my.oschina.net/u/1986875/blog/669916

版权

from bs4 import BeautifulSoup

import time,requests,re

url = 'http://wx.58.com/pingbandiannao/25892738648911x.shtml'

wb_data = requests.get(url,headers=header)

soup =BeautifulSoup(wb_data.text,'lxml')

def get_links_from(who_sells):

urls = []

list_view = 'http://wx.58.com/pbdn/{}/pn2/'.format(str(who_sells))

wb_data = requests.get(list_view)

soup = BeautifulSoup(wb_data.text,'lxml')

for link in soup.select('td.t > a.t'):

url_one = link.get('href').split('?')[0]

if str('zhuanzhuan') not in url_one: #去掉不能被解析掉的转转网页

urls.append(url_one)

return urls

def get_view():

id = re.findall('http.*?nao/(.*?)x.shtml',url,re.S) #使用正则表达筛选ID

# print(id[0])

api = 'http://jst1.58.com/counter?infoid={}'.format(id[0])

js = requests.get(api)

views = js.text.split('=')[-1]

# print(views)

return views

def get_item_info(who_sells=0):

urls = get_links_from(who_sells)

for url in urls:

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text,'lxml')

data = {

'title':soup.title.text,

'price':soup.select('div.su_con > span.c_f50')[0].text,

'date' :soup.select('li.time')[0].text,

'area' :list(soup.select('span.c_25d')[0].stripped_strings) if soup.find_all('span','c_25d') else None,#去掉区域为空掉选项,防止报错

'url' :url,

'cate' :'个人' if who_sells == 0 else '商家' ,

'views':get_view(),

}

print(data)

# get_item_info(url)

# get_links_from()

# get_view()

get_item_info()

转载于:https://my.oschina.net/u/1986875/blog/669916

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

choucan8779

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫——58同城

from bs4 import BeautifulSoup import time,requests,re url = 'http://wx.58.com/pingbandiannao/25892738648911x.shtml' wb_data = req...
复制链接

扫一扫

python爬虫爬取58同城信息源码

10-09

内容为Python编写的爬取58同城同城信息转让信息爬取的示例

python期末版二版-习题题库

热门推荐

qq_43679940的博客

11-14

3万+

python期末版二版-习题题库

参与评论您还未登录，请先登录后发表或查看评论

python面试题-python相关

weixin_33737134的博客

11-16

195

1、 __new__.__init__区别，如何实现单例模式，有什么优点 __new__是一个静态方法，__init__是一个实例方法 __new__返回一个创建的实例，__init__什么都不返回 __new__返回一个cls的实例时后面的__init__才能被调用当创建一个新实例时调用__new__，初始化一个实例时调用_...

Python练习题函数设计（55~67）一

冷鞘-的博客

08-11

2963

Demo55 ** Python 计算机程序设计中会经常用到十六进制数(第3章曾介绍过)(参见附录C中对数系的介绍)。将十进制数d转换为一个十六进制数就是找到满足下面条件的十六进制数: ** 程序编辑： # 提示用户输入一个十进制整数 number = int(input("Enter a number:")) def decToHex(number): hexStr = "" while number != 0: temp = number % 16

Python OJ50题

qq_45094932的博客

12-13

5722

题目描述用来适应环境的题目，自然比较简单些。计算2个整数的和。这两个整数都在1到1000之间。输入输入只有一行，包括2个整数a, b。之间用一个空格分开。输出输出只有一行（这意味着末尾有一个回车符号），包括1个整数。必须用print（）输出你的结果，才能通过OJ的评判 1 python的hello world 题目描述请在一行输出 “Python = Pile + sensensen”输入程序无输入输出按照题目要求输出 2 python成绩题目描述森森最近学习了Python课，这门课程的

Python面试题

weixin_30498807的博客

04-19

1万+

https://www.imooc.com/article/36931 1.python字符串格式化中，%s和.format的主要区别是什么 python用一个tuple将多个值传递给模板，每个值对应一个格式符print（“ my name is %s ,im %d year old”%("gaoxu",19))自从python2.6开始，新增了一种格式化字符串的函数str....

python爬虫——牛课实习广场

12-22

Python爬虫技术在数据获取和分析中扮演着重要的角色，特别是在寻找实习机会时，能够自动爬取招聘信息可以极大地节省时间。本案例中，我们将探讨如何使用Python爬取牛课网实习广场的职业信息，主要涉及requests、...

Python爬虫——总结小知识点

12-22

Python爬虫技术是数据获取和分析的重要工具，它允许我们自动化地从网页抓取信息。在Python中，`urllib`库是实现基础网络请求的主要模块。本文将深入探讨`urllib`入门、`response`对象、用户代理的使用以及处理URL...

python爬虫爬取58同城上所有城市的租房信息详解

09-18

主要介绍了python爬虫爬取58同城上所有城市的租房信息详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

python基础篇章一

qq_45607101的博客

01-17

171

** 使用pycharm编写第一个Python程序** 1、打开pycharm出现下图页面 **注意！！！**location为所创建的python项目的位置，new environment using—base interpreter为python解释器的位置。python解释器在官网上下载即可 2、为所用的python解释器，系统自带，暂时不用管。右击–New–python file即可添加python文件，不用谢.py后缀了，But 最好写上后缀 3、在IDE环境下执行python程序：在最

2020-04-24

qq_46775394的博客

04-24

682

用户从键盘输入一行字符，编写一个程序，统计并输出其中英文字符、数字、空格和其他字符的个数。提示：先用一个变量s保存输入的一行文字（采用input() 完成输入），用变量n1,n2,n3,n4分别保存英文字母、数字、空格和其它字符的个数，初始这4个变量值为0。然后用for循环依次取每个字符判断是英文字母、数字、空格还是其它字符，相应变量值增加1，循环结束后输出这4个变量n1,n2,n3,n4的值。...

python爬虫1

weixin_43730880的博客

10-20

217

1、使用urllib中request方法进行简单文件下载及爬取数据 urllib --内置库 urllib是python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 urlopen函数参数 url：请求的url data：请求的data，如果设置了这个值那么将变成post请求返回值：返回一个client.HTTPResponse对象，这个对象时一个类文件句柄对象，包含方法 read readlin...

Python 使用 UTF-8 编码

JoeBlackZQQ的专栏

01-30

2467

From: http://blog.chenlb.com/2010/01/python-use-utf-8.html 一般我喜欢用 utf-8 编码，在 python 怎么使用呢？ 1、在 python 源码文件中用 utf-8 文字。一般会报错，如下： File "F:\workspace\psh\src\test.py", line 2 SyntaxError: N

剑指Offer(Python多种思路实现):翻转字符串

weixin_44151089的博客

02-27

714

剑指Offer(Python多种思路实现):翻转字符串面试58题：题目：翻转字符串题：牛客最近来了一个新员工Fish，每天早晨总是会拿着一本英文杂志，写些句子在本子上。同事Cat对Fish写的内容颇感兴趣，有一天他向Fish借来翻看，但却读不懂它的意思。例如，“student. a am I”。后来才意识到，这家伙原来把句子单词的顺序翻转了，正确的句子应该是“I am a studen...

59个Python使用技巧，从此你的Python与众不同！

weixin_34174322的博客

07-20

780

今天给大家分享几个Python使用的小技巧，原文来自于Python 技巧总结,进行了细微的调整，感谢作者！1. 枚举 - enumerate 可以有参数哦之前我们这样操作：i = 0for item in iterable: print i, item i += 1现在我们这样操作：for i, item in enumerate(iterable): print i, itemenumera...

python实战｜python爬取58同城租房数据并以Excel文件格式保存到本地

bentou_的博客

11-08

6390

python实战｜python爬取58同城租房数据并以Excel文件格式保存到本地一、分析目标网站url 目标网站：https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样：网站描述： - 链接一直不变（爱了爱了 - 没有翻页设计，往下滑会无限加载（得想个办法如何解决网页无限加载不好爬的问题？ - 团队经过讨论和参考一些博主的经验，选择了把网页先保存到本地再进行爬取。虽说是一个笨办法，但确实也是一个办法！ - 注：本方法适合所需数据不是超级大的那种（超过3k

python项目案例开发详解_基于PYTHON的ABAQUS二次开发实例讲解.pdf

weixin_39914938的博客

12-04

632

基于Python的Abaqus二次开发实例讲解(asian58 2013.6.26)基于Python 的Abaqus 的二次开发便捷之处在于：、所有的代码均可以先在中操作一遍后再通过文件读取，然后再在此1 Abaqus\CAE rp基础上进行相应的修改；2、Python 是一...

年后找工作？这60道硬核 Python 面试题你不得不看

实验楼

01-22

1152

（精选自个大公司经典面试题，版权归原作者所有。） 1. Python 的特点和优点是什么?答案：略。 2. 什么是lambda函数？它有什么好处?lambda 函数是...

python爬虫——北京租房信息导入excel