关于
php 下一页的代码的搜索结果
问题
Spider抓取动态内容(JavaScript指向的页面)
PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。
也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……
另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问...
a123456678
2019-12-01 20:13:52
872 浏览量
回答数 1
问题
我想要点击下一页直到最后一页
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import time
url = 'https://curecity.in/vendo...
kun坤
2019-12-25 21:56:31
2 浏览量
回答数 1
问题
我想要点击下一页直到最后一页
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import time
url = 'https://curecity.in/vendo...
kun坤
2019-12-25 21:58:39
2 浏览量
回答数 1
回答
可能代码放得太多了,大家莫有心情看下去 ######你管你正常的写分页,其他的事情是 rewrite 去做的######不行的啊,不成功######
引用来自“cema”的答案
你管你正常的写分页,其他的事情是 rewrite 去做的
代码里我是这么写的
pageft($countnews,$page_size,1,1,0,6,20,1,$url="news-p(这里我不知道怎么放参数).html");
.htaccess里我是这么写的
RewriteRule ^([a-zA-Z]+)-p([0-9]+).html$ index.php?action=$1&page=$2
结果运行出来的是这样的
news-p(这里不知道怎么写).html?page=1...,不知道为什么
html后面怎么会有参数?page,可能是累里面的判断有关,到底该怎么解决呢
######回复
@cema : 还是不行,谢谢了######
@cema 你 rewrite 如果没错的话,你分页函数直接传 action 进去 然后函数里 $action-下一页数.html 就是下一页的地址######
@YIPU 你的action 好像没有重写,也不清除你的思路######
@YIPU 去掉 action 是这样的,RewriteRule ^([a-zA-Z]+)-p([0-9]+).html$ $1index.php?page=$2######回复
@cema : 帅哥具体点啊,新手 啊######
引用来自“YIPU”的答案
引用来自“cema”的答案
你管你正常的写分页,其他的事情是 rewrite 去做的
代码里我是这么写的
pageft($countnews,$page_size,1,1,0,6,20,1,$url="news-p(这里我不知道怎么放参数).html");
.htaccess里我是这么写的
RewriteRule ^([a-zA-Z]+)-p([0-9]+).html$ index.php?action=$1&page=$2
结果运行出来的是这样的
news-p(这里不知道怎么写).html?page=1...,不知道为什么
html后面怎么会有参数?page,可能是累里面的判断有关,到底该怎么解决呢
这个参数是分页类加上去的吧
######我就是不知道加哪个啊######继续求助
######
@leo108
######
@红薯
######你的分页类不支持这种伪静态,要改的话挺麻烦######那你有没有更好的分页类
kun坤
2020-06-09 22:12:33
0 浏览量
回答数 0
回答
我在这页上发现了两个问题。 1)它加载页面非常慢,所以我不得不在获取数据和点击()按钮之前睡眠10秒。 2)按钮>的工作方式与我预期的不同——它会跳转3个页面(即使我在浏览器中手动点击它),所以我用下一页的编号搜索按钮,然后点击它。
driver.find_element_by_xpath('//a[@data-page="{}"]'.format(next_page_number)).click()
完整的代码。即使没有漂亮的汤也能工作
from selenium import webdriver
#from bs4 import BeautifulSoup as bs
import time
url = 'https://curecity.in/vendor-list.php?category=Doctor&filters_location=Jaipur&filters%5Bsubareas_global%5D=&filters_speciality='
driver = webdriver.Chrome('C:\chromedriver.exe')
#driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
next_page_number = 1
while True:
print('page:', next_page_number)
time.sleep(10)
#soup = bs(driver.page_source, 'html.parser')
#for link in soup.find_all('div',class_='col-md-9 feature-info'):
# link1 = link.find('a')
# print(link1['href'])
for link in driver.find_elements_by_xpath('//div[@class="col-md-2 feature-icon"]/a'):
print(link.get_attribute('href'))
try:
next_page_number += 1
driver.find_element_by_xpath('//a[@data-page="{}"]'.format(next_page_number)).click()
except:
print('No more pages')
break # exit loop
#driver.close()
kun坤
2019-12-25 21:56:42
0 浏览量
回答数 0
回答
我在这页上发现了两个问题。 1)它加载页面非常慢,所以我不得不在获取数据和点击()按钮之前睡眠10秒。 2)按钮>的工作方式与我预期的不同——它会跳转3个页面(即使我在浏览器中手动点击它),所以我用下一页的编号搜索按钮,然后点击它。
driver.find_element_by_xpath('//a[@data-page="{}"]'.format(next_page_number)).click()
完整的代码。即使没有漂亮的汤也能工作
from selenium import webdriver
#from bs4 import BeautifulSoup as bs
import time
url = 'https://curecity.in/vendor-list.php?category=Doctor&filters_location=Jaipur&filters%5Bsubareas_global%5D=&filters_speciality='
driver = webdriver.Chrome('C:\chromedriver.exe')
#driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
next_page_number = 1
while True:
print('page:', next_page_number)
time.sleep(10)
#soup = bs(driver.page_source, 'html.parser')
#for link in soup.find_all('div',class_='col-md-9 feature-info'):
# link1 = link.find('a')
# print(link1['href'])
for link in driver.find_elements_by_xpath('//div[@class="col-md-2 feature-icon"]/a'):
print(link.get_attribute('href'))
try:
next_page_number += 1
driver.find_element_by_xpath('//a[@data-page="{}"]'.format(next_page_number)).click()
except:
print('No more pages')
break # exit loop
#driver.close()
kun坤
2019-12-25 21:58:52
0 浏览量
回答数 0
问题
分页类调用后URL出错? 报错
分页类调用后URL出错? 400 报错
以下是内容也代码:该如何修改呢
错误信息是:Not Found
The requested URL /InputReactor.php&page...
优选2
2020-06-04 18:05:31
3 浏览量
回答数 1
问题
分页类调用后URL出错? 400 报错
分页类调用后URL出错? 400 报错
以下是内容也代码:该如何修改呢
错误信息是:Not Found
The requested URL /InputReactor.php&page...
爱吃鱼的程序员
2020-05-29 17:51:08
0 浏览量
回答数 1
问题
分页类调用后URL出错? 400 报错
分页类调用后URL出错? 400 报错
以下是内容也代码:该如何修改呢
错误信息是:Not Found
The requested URL /InputReactor.php&page...
爱吃鱼的程序员
2020-06-02 11:56:31
0 浏览量
回答数 1
问题
Jquery-datatables插件接收的json数据格式应该是怎样?报错
想使用datatable显示数据。假设只有“id”和“name”两个字段。后端用php的json_encode来返回字段。 $("#example").dataTable({ "bAu...
kun坤
2020-06-03 10:18:32
5 浏览量
回答数 1
问题
CKEditor配置及插件(Plugin)编写示例:报错
(文本作者:红麦软件 屈伟,转载请注明来源)
FCKEditor重写了js框架,并改名为CKEditor。第一次在CKEditor网站上看到demo界面,...
kun坤
2020-06-07 09:58:38
0 浏览量
回答数 1
问题
CKEditor配置及插件(Plugin)编写示例 - CKEditor报错
(文本作者:红麦软件 屈伟,转载请注明来源)
FCKEditor重写了js框架,并改名为CKEditor。第一次在CKEditor网站上看到demo界面,...
montos
2020-05-31 16:54:03
0 浏览量
回答数 1
问题
php伪静态求助啊,分页那边的不会写啊:报错
@$page = ceil($_GET['page']);
if(!function_exists('pageft')){
function pageft($totle,$...
kun坤
2020-06-09 22:12:27
1 浏览量
回答数 1
问题
求助一个php正则表达式的问题
有一个形式类似下面的字符串微信公众号营销一本通我想在php环境中用正则表达式匹配出其中书名(微信公众号营销一本通)部分,请问应该怎么写这个正则表达式
更新,整个html文件源代码:
<html dir="LTR">
<...
小旋风柴进
2019-12-01 20:12:29
1703 浏览量
回答数 1
本文探讨了PHP新手如何处理动态内容,通过Selenium与BeautifulSoup配合,解决JavaScript驱动的网页抓取问题,包括分页函数的重写与URL参数管理,以及遇到的常见问题和解决策略。


被折叠的 条评论
为什么被折叠?



