python爬虫
小小颖儿
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup基本用法总结
BeautifulSoup是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,相对于正则表达式的方式,可以大大简化处理过程。 0x01 安装 建议安装BeautifulSoup 4版本 利用pip进行安装: pip install beautifulsoup4 BeautifulSoup...原创 2018-09-20 20:11:58 · 481 阅读 · 0 评论 -
爬取链家数据(城市、价格、时间)1
1、提取链家信息(城市、价格、时间) '''测试通过''' import requests from bs4 import BeautifulSoup from datetime import datetime import io def get_city_list(): city_list = {} city_from_url = 'https://m.lianjia.co...原创 2018-09-21 07:38:12 · 1408 阅读 · 1 评论 -
爬取链家数据2
#coding:utf-8 import sys reload(sys) sys.setdefaultencoding("utf-8") #设定编码要放在最上面。之前放在引用库的最下面,然后加到pandas的DataFrame老是出现中文字符为问号的乱码 import pandas as pd import urllib2 import urllib import time import re...原创 2018-09-21 07:40:47 · 617 阅读 · 0 评论 -
爬取链家数据3
1、直接上代码: #coding:utf-8 import sys reload(sys) sys.setdefaultencoding("utf-8") import pandas as pd import urllib2 import urllib import time import re from bs4 import BeautifulSoup totalPrice=[] hou...原创 2018-09-21 07:42:42 · 1853 阅读 · 2 评论