- 博客(8)
- 收藏
- 关注
原创 【Python爬虫练习】虎扑社区步行街版块首页信息爬取多线程版本
#_*_ coding=UTF-8 _*_import requestsfrom bs4 import BeautifulSoupimport queue as Queueimport threadingheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHT...
2019-06-22 11:46:43 576
原创 【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)
严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途!首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj页面的样子是这样的:红色圈出来的部分就是我们所要爬取的内容信息。接下来最重要的自然是页面元素的分析,这个就不多说了,这是爬虫代码编写的前提,也是最最基本、最最重要的部分。简单的来说就是 右键想要爬取的内容,选择“检查”。需要大家了解一点h...
2019-06-20 16:56:18 810
原创 MySQL发生访问出错问题的一般解决办法
首先,我们看看我们的MySQL服务是否启动,通过“net start mysql”或者直接在计算机服务中启动;如果已经启动可以尝试重新启动;如果问题还没有解决,那么下面的方法可能是有效的:1、找到mysql数据库的数据存储位置,即"....../data/",完全删除所有文件(垃圾箱也删除),最好先备份;2、之后执行如图所示的几条命令:解决方法:删除data文件夹。重新跑此命令。...
2019-06-13 20:14:09 320
原创 【Python爬虫练习】python爬取安居客二级网页二手房信息(selenium)
在每次进行爬虫代码的编写之前,我们的第一步也是最重要的一步就是分析我们的网页。在我们本次的例子中,我们需要在每一页获取每一个具体房源的链接,然后进入到二级网页获取详细的信息,然后再返回上一级网页重复此过程。通过分析我们发现在爬取过程中速度比较慢,所以我们还可以通过禁用谷歌浏览器图片、JavaScript等方式提升爬虫爬取速度。爬取的网站首页地址:https://beijing.anju...
2019-06-12 17:37:51 3805 2
原创 python爬虫之使用BeautifulSoup爬取博客标题以及读写数据(txt、csv文件格式)操作
1.内容爬取首先上代码:import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537....
2019-06-09 14:38:54 1990 2
原创 python正则表达式爬取博客标题
import requestsimport reheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}for i in range(1,8): link='...
2019-06-06 19:50:36 1439
原创 python+selenium爬虫小项目(爱彼迎深圳房源信息爬取)
这是房源的地址:第1页:https://www.airbnb.cn/s/Shenzhen--China/homes?refinement_paths%5B%5D=%2Fhomes&place_id=ChIJkVLh0Aj0AzQRyYCStw1V7v0&query=Shenzhen%2C%20China&allow_override%5B%5D=&s_tag=v...
2019-06-05 21:37:00 4794 1
原创 python +selenium禁用谷歌浏览器图片、JavaScript
import requestsfrom selenium import webdriveroptions=webdriver.ChromeOptions()prefs = { 'profile.default_content_setting_values': { 'images': 2, 'jav...
2019-06-03 21:30:14 2881
基于python的pygame模块实现的跳动爱心
2024-02-21
基于python实现Turtle模块实现的春节烟花代码
2024-02-21
基于R语言的数据分析案例
2024-02-21
使用C语言文件操作模拟实现简易记事本
2024-02-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人