简单的爬取土地信息(房天下)

在地产公司工作,常常要获取数据,有时候得手动复制粘贴,累得手抽筋。于是觉得这玩意儿应该能用编程解决,但是我编程完全不会,在抽屉新热榜(我不是打广告,我是重度抽屉用户)经常看到有人写个python脚本就把很多事儿干了,然后评论里说这个语言挺好学的,是所有语言里最亲民的了。
所以就开始学python,死马当活马医吧。
之前对编程的理解完全是大学里被逼着学的一点点C语言,大学时C语言挂了三次差点没能毕业,编程学的一塌糊涂。对编程的理解止步于getchar(),还有个swich之类的玩意儿,当时以为这个命令是不是用来启动游戏机的。
自己的学习能力十分差劲,买了好多书,看了好久还是只会个input,if跟while都没弄明白。
但是我知道,聪明的人研究一星期肯定能用python爬取简单的数据了,也许一星期都用不了,两天就可以。
后来工作中又遇到了需要或许数据的事情,又是一阵手抽筋。

咬了咬牙,硬攻了一个星期的python,最后写了个简单的爬虫爬取房天下的土地数据,因为不会用python做登陆,据说得用到COOKIE之类的玩意儿,暂时没弄明白,所以只能爬最简单的一些数据。当时学的时候很多概念都不懂,各种百度各种调试,最后通了就OK了,但是也没弄明白为啥就通了。但是发现中间遇到的很多问题都忘了,所以觉得写博客真的很重要啊,就相当于一个学习笔记。所以今天写了好几篇博客,都是自己今天遇到的问题。然后想到之前写的代码,就贴出来现个眼。

我发现爬房天下的人很多,研究了下他们的网站,确实很适合爬。网址结构简单美观,特别有规律,网页代码也干净优美,一眼望穿,真怀疑做这个网站的人是个处女座。

下面就是写的怎么爬取列表页的一些数据,然后存储成CSV。
用的是requests和beautifulsoup这两个工具,很简单。
最后的CSV是横着的,得用excel手动变成竖着的,然后加上表头。这个倒是不难,也不算麻烦。
爬的时候遇到的第一个问题是乱码的问题,好像是得用encoding = utf-8 这个命令,各种改代码,但是最后改出自己也没弄明白为啥就不乱码了,什么时候用,用在哪里最后也没整明白,反正后来自己再写的时候还是各种报错。所以说得写博客啊!

以后要学的就是怎么爬取那些只有登录才能看到的内容,还有就是怎么把数据存到数据库里。
据说python自带数据库,叫sqllite,准备去学学这玩意儿。
然后是selenium,碰到硬茬据说可以用这个,我试了下,这个玩意儿响应很慢。准备学会了去爬中国土地网,那个网站上的东西一看代码是一堆乱码,据说是因为写在JS里了还是别的原因, 反正贼的很,是个难啃的骨头。
下面是爬房天下的代码↓↓↓

#coding:utf-8
import  requests
from bs4 import BeautifulSoup
import os
import csv
import re
import time
import random
        
#请求头
headers = {
           'User-Agent': 'Moz
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值